आउटलेटर्स की गणना कैसे करें

आंकड़ों में, ए असामान्य मूल्य एक ऐसा डेटा है जो नमूना के अन्य डेटा से काफी अलग है। अक्सर, डेटा सेट में आउटलाइयर सांख्यिकीविदों को प्रयोगात्मक असामान्यताओं या माप में त्रुटियों को सचेत कर सकते हैं, और इसके कारण उन्हें डेटा सेट से हटा दिया जा सकता है। यदि सेट के आउटलेटर्स

सामग्री

चरणों
Video: इस प्रकार से करें प्रति एकड़ 1000 क्विंटल गन्ना उत्पादन | गन्ना उत्पादन की उन्नत तकनीक
Video: kisan ganna calendra parchi kese dekhe mobile me
Video: गन्ने की खेती टिरिंच विधि ganne ki kheti kaise kare ||ganne ki kheti ki jankari
युक्तियाँ
आप की आवश्यकता होगी चीजें

को नजरअंदाज कर दिया जाता है, अध्ययन से प्राप्त निष्कर्षों में महत्वपूर्ण बदलाव हो सकते हैं। इसलिए, सांख्यिकीय डेटा की उचित समझ सुनिश्चित करने के लिए आउटलाइर्स की गणना और मूल्यांकन करना महत्वपूर्ण है।

चरणों

कैलक्यूटेबल आउटलाइर्स चरण 1 नामांकित छवि

जानें कैसे संभव outliers पहचान करने के लिए यह तय करने से पहले कि क्या आपको एक निश्चित डेटा सेट के आउटलेटर्स को अनदेखा करना चाहिए, पहले, जाहिर है, हमें डेटा सेट के संभावित आउटलेरों की पहचान करनी चाहिए। मोटे तौर पर, आउटलेयर डेटा होते हैं जो डेटा सेट के अन्य मूल्यों द्वारा व्यक्त प्रवृत्ति से बहुत अलग होते हैं। दूसरे शब्दों में, यह वे दूर का पता लगाते हैं अन्य मूल्यों के लिए डेटा टेबल में या विशेष रूप से ग्राफ़ में यह पता लगाना आम तौर पर आसान होता है यदि डेटा सेट को किसी ग्राफ में नेत्रहीन रूप से व्यक्त किया गया है, तो आउटलेट अन्य मानों से "दूर" स्थित हैं। , उदाहरण के लिए, किसी डेटा सेट का डेटा के सबसे एक सीधी रेखा का गठन, वह उचित रूप में व्याख्या नहीं की जा सकी बाहरी कारकों के कारण है कि लाइन का हिस्सा थे।

हम एक डेटा सेट ले जा रहे हैं जो एक कमरे में 12 विभिन्न ऑब्जेक्ट्स के तापमान का प्रतिनिधित्व करता है। 11 वस्तुओं 70 डिग्री फारेनहाइट (21 डिग्री सेल्सियस), लेकिन बारहवीं वस्तु, एक भट्ठी 300 डिग्री फारेनहाइट के तापमान वाले (150 डिग्री सेल्सियस) के करीब तापमान है, तो एक त्वरित बिंदु दर्शाएगा कि ओवन शायद एक है atypical मूल्य

Video: इस प्रकार से करें प्रति एकड़ 1000 क्विंटल गन्ना उत्पादन | गन्ना उत्पादन की उन्नत तकनीक

डेटा को कम से कम तक का सबसे बड़ा सॉर्ट करें डेटा सेट के आउटलेरों की गणना करने में पहला कदम डेटा सेट के मध्य (मध्य) मूल्य को ढूंढना है। यह कार्य बहुत सरल है यदि डेटा सेट मान क्रम में कम से कम सबसे बड़ा हो इसलिए, जारी रखने से पहले, इस तरह से सेट किए गए डेटा के मूल्यों को ऑर्डर करें।

चलो ऊपर के उदाहरण के साथ जारी रखें निम्नलिखित डेटा सेट है जो कमरे में कई वस्तुओं के तापमान का प्रतिनिधित्व करता है: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}। अगर हम कम से कम से बड़ी संख्या में सेट किए गए डेटा के मूल्यों को ऑर्डर करते हैं, तो हमारे मूल्यों का सेट है: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

डेटा सेट के मध्य की गणना करें। डेटा सेट की औसत डेटा डेटा का आधा है जो ऊपर है और जो नीचे डेटा- के अन्य आधा मूल रूप से मूल्य डेटा सेट "बीच में" है। यदि डेटा सेट में डेटा की एक अजीब संख्या होती है, तो उसे खोजने में आसान होता है (माध्य औसत से ऊपर और उससे नीचे की संख्या के साथ डेटा होगा)। हालांकि, यदि आंकड़ों की एक भी संख्या है, तो कोई एकल मिडपॉइंट नहीं है, मध्य माध्य को खोजने के लिए दो मध्यबिंदु औसत होना चाहिए। ध्यान दें कि जब बाहरी कारकों के कारण गणना करते समय, आमतौर पर चर Q2 मंझला को सौंपा गया है क्योंकि Q1 और Q3 के बीच निहित है, पहले और तीसरे चतुर्थकों, जो बाद में परिभाषित करते हैं।

यदि डेटा सेट में मूल्यों की एक भी संख्या है, तो भ्रमित न करें दो मानों की औसत अक्सर एक संख्या होती है जो डेटा सेट में प्रकट नहीं होती है-यह सामान्य है हालांकि, यदि मध्यम के दो मूल्य एक ही नंबर हैं, तो औसत, जाहिर है, वह वही नंबर होगा, और यह भी सामान्य।

हमारे उदाहरण में हमारे पास 12 मूल्य या डेटा है माध्यम के 2 मूल्य क्रमशः 6 और 7, 70 और 71 के आंकड़ों के अनुरूप हैं। इसलिए, हमारे डेटा सेट का औसत इन दो मानों का औसत है: ((70 + 71) / 2), = 70.5.

प्रथम चतुर्थक की गणना करें यह मान, जिसे हम चर Q1 प्रदान करते हैं, वह डेटा नीचे दिया गया है जो कि मूल्यों का 25 प्रतिशत (या एक चौथाई) है। दूसरे शब्दों में, यह डेटा है जो डेटा सेट के डेटा के मध्य में है औसत से नीचे अगर औसत से नीचे मूल्यों की एक भी संख्या है, तो आपको बीच में फिर से दो मान मिलेंगे क्यू 1 को खोजने के लिए, जैसा कि आप को मध्यस्थ खोजने के लिए करना पड़ सकता है

हमारे उदाहरण में, 6 डेटा औसत और 6 डेटा नीचे दिए गए हैं। इसका अर्थ है कि पहले चतुर्थक को खोजने के लिए, हम छह छोटे आंकड़ों के मध्य में दो आंकड़ों को औसत करना होगा। छह बच्चों के डेटा 3 और 4 दोनों 70 हैं। इसलिए, उनका औसत ((70 + 70) / 2), = है 70. 70 Q1 के लिए हमारा मूल्य होगा

कैलकुलेटर आउटलाइर्स चरण 5 शीर्षक वाली छवि

Video: kisan ganna calendra parchi kese dekhe mobile me

तीसरे चतुर्थक की गणना करें यह मान, जिसे हम चर Q3 प्रदान करते हैं, वह डेटा है जिस पर 25 प्रतिशत मूल्य स्थित हैं। Q3 खोजने का तरीका Q1 को खोजने के लिए उपयोग करने वाले एक के समान है, इस अंतर के साथ इस मामले में डेटा माना जाता है औसत से अधिक, इसके बजाय नीचे दिए गए लोगों के बजाय

हमारे उदाहरण के बाद, मध्य के छह आंकड़ों के मध्य में दो मान 71 और 72 हैं। इन दो मानों का औसत होने पर हम ((71 + 72) / 2) प्राप्त करते हैं, = 71.5. 71.5 हमारे मूल्य Q3 के लिए होगा।

कैलकुलेट आउटलाइर्स चरण 6 के शीर्षक वाला छवि

अंतरराज्यीय सीमा का पता लगाएं अब जब हमने Q1 और Q3 परिभाषित किया है, हमें इन दो चर के बीच की दूरी की गणना करनी होगी। Q1 से Q3 की दूरी Q3 से Q1 को घटाकर गणना की जाती है। इंटरक्वेटाइल रेंज के लिए प्राप्त मूल्य डेटा सेट के गैर-अस्थायी मूल्यों की सीमा निर्धारित करने के लिए महत्वपूर्ण है।

हमारे उदाहरण में, Q1 और Q3 के मूल्य क्रमशः 70 और 71.5 हैं। इंटरक्वेटाइल श्रेणी को खोजने के लिए हम Q3 - Q1: 71.5 - 70 = घटाते हैं 1.5.

ध्यान दें कि यह काम करता है भले ही Q1, Q3, या दोनों ऋणात्मक संख्याएं हैं उदाहरण के लिए, यदि Q1 के हमारे मूल्य -70 थे, तो हमारी इंटरक्वैटाइल रेंज 71.5 - (-70) = 141.5 होगी, जो सही होगी।

Video: गन्ने की खेती टिरिंच विधि ganne ki kheti kaise kare ||ganne ki kheti ki jankari

डेटा सेट की "आंतरिक सीमा" ढूंढें आउटलाइयर की पहचान करते समय मूल्यांकन किया जाता है कि वे "आंतरिक सीमा" और "बाह्य सीमा" नामक संख्यात्मक सीमाओं में हैं या नहीं। डेटा सेट की आंतरिक सीमा के बाहर स्थित एक मान कहा जाता है हल्के आउटअलर, और जो बाहरी सीमा के बाहर है वह कहा जाता है अति असामान्य मूल्य डेटा सेट की आंतरिक सीमाओं को खोजने के लिए, पहले इंटरक्वेटाइल श्रेणी 1.5 से गुणा करें। उसके बाद, परिणाम 3 में जोड़ें और इसे Q1 दें। परिणाम से प्राप्त होने वाले दो मूल्यों में डेटा सेट की आंतरिक सीमाएं हैं।

हमारे उदाहरण में, अंतरालीय रेंज (71.5 -70) या 1.5 है। 1.5 से गुणा करके हमें 2.25 मिलता है। हम इस नंबर को क्यू 3 में जोड़ते हैं और इसे आंतरिक सीमाओं के नीचे देखने के लिए Q1 से घटा देते हैं।

71.5 + 2.25 = 73.75

70 - 2.25 = 67.75

इसलिए, आंतरिक सीमाएं हैं 67.75 और 73.75.

हमारे डेटा सेट में, केवल भट्ठी का तापमान (300 डिग्री) इस श्रेणी के बाहर है और इसलिए हल्के atypical मूल्य बन सकता है। हालांकि, हमें अभी भी यह निर्धारित करना होगा कि क्या यह तापमान अत्यधिक बाधित है, इसलिए जब तक हम ऐसा नहीं करते, तब तक निष्कर्ष नहीं निकालें।

कैटल आउट आउटर्स चरण 7 बुलेट 2 शीर्षक वाली छवि

डेटा सेट की "बाहरी सीमा" ढूंढें। इन की आंतरिक सीमा के अनुसार गणना की जाती है, सिवाय इसके कि अंतरालीय रेंज को 1.5 के बजाय 3 से गुणा किया जाता है। फिर परिणाम क्यू 3 में जोड़ा जाता है और ऊपरी और निचले बाहरी सीमाओं को खोजने के लिए Q1 से घटा दिया जाता है।

हमारे उदाहरण में, तीन द्वारा उल्लेखित अंतरालीय श्रेणी को गुणा (1.5 * 3) या 4.5 देता है। हम ऊपरी और निचले बाहरी सीमाओं को पहले से ढूंढते हैं:

71.5 + 4.5 = 76

70 - 4.5 = 65.5

बाहरी सीमाएं हैं 65.5 और 76.

बाहरी सीमाओं के बाहर के किसी भी डेटा को एक अति बाध्यकारी माना जाता है। इस उदाहरण में ओवन का तापमान, 300 डिग्री, बाहरी सीमाओं से बहुत बाहर है इसलिए यह है निश्चित रूप से एक बहुत ही असामान्य मूल्य

कैलकुलेट आउटलाइर्स चरण 9 के शीर्षक वाला छवि

निर्धारित करने के लिए गुणात्मक मूल्यांकन का प्रयोग करें कि आप आउटलाइयर को "त्याग दें" या नहीं। वर्णित कार्यप्रणाली का उपयोग करना, यह निर्धारित करना संभव है कि क्या कुछ डेटा हल्के असामान्य मूल्यों, चरम आउटलाइयर या किसी भी प्रकार के atypical मूल्य के हैं। हालांकि, कोई गलती न करें, किसी डेटा को एक आउटवेयर के रूप में पहचानकर केवल उसे एक के रूप में वर्गीकृत किया जाता है ऐसे उम्मीदवार को डेटा सेट से अनदेखा किया जा सकता है, लेकिन डेटा के रूप में नहीं इसे अनदेखा किया जाना चाहिए कारण जिससे एक आउटवेयर डेटा सेट के बाकी मानों से अलग किया जाता है यह निर्धारित करने के लिए महत्वपूर्ण है कि क्या आउटवेयर को अनदेखा करने या नहीं। आमतौर पर बाहरी कारकों के कारण जिसका मूल किसी तरह की त्रुटि के लिए जिम्मेदार ठहराया जा सकता है, रजिस्ट्री में ही मापन त्रुटि माना, या प्रयोगात्मक डिजाइन में, ध्यान नहीं दिया जाता। दूसरी तरफ, आउटलाइयर जो किसी त्रुटि के कारण नहीं हो सकते हैं और जो नई जानकारी या प्रवृत्तियों को प्रकट करते हैं जिन्हें सामान्य तौर पर भविष्यवाणी नहीं की गई थी वे नजरअंदाज नहीं कर रहे हैं

विचार करने के लिए एक और मानदंड यह है कि क्या आउटलायर डेटा के औसत (औसत) को प्रभावित करने या इसे भ्रामक बनाकर प्रभावित करता है या नहीं इसे ध्यान में रखते हुए विशेष रूप से महत्वपूर्ण है अगर आप डेटा सेट के मतलब से निष्कर्ष निकालना चाहते हैं।

आइए हमारे उदाहरण का मूल्यांकन करें। हमारे उदाहरण में, यह है कि यह है बहुत संभावना नहीं है कि भट्ठी एक अप्रत्याशित प्राकृतिक बल के 300 डिग्री कारण तापमान पर पहुंच गया, हम निष्कर्ष है कि लगभग निश्चित रूप से ओवन गलती से चालू किया गया था, एक उच्च तापमान विषम पढ़ने में जिसके परिणामस्वरूप। इसके अलावा, अगर हम बाहरी उपेक्षा, हमारे डेटा सेट का औसत है (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 डिग्री, जबकि औसत अगर हम outlier है (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70.55

चूंकि outlier एक मानव त्रुटि को जिम्मेदार ठहराया जा सकता है और क्योंकि यह कहना सही नहीं है कि इस कमरे का औसत तापमान लगभग 90 डिग्री था, हमें चुनना चाहिए उपेक्षा हमारे असामान्य मूल्य

महत्वहीन (कभी-कभी) असामान्य मूल्यों की गिनती को समझें जबकि कुछ आउटलेटर्स को डेटा सेटों से अनदेखा करना चाहिए क्योंकि वे एक त्रुटि के परिणाम हैं और / या परिणाम को गलत या भ्रामक बनाने के लिए गुमराह करते हैं, कुछ आउटलाइयर को गिना जाना चाहिए। यदि, उदाहरण के लिए, ऐसा लगता है कि एक outlier एक वैध तरीके से प्राप्त किया गया था (जो कि एक त्रुटि के परिणामस्वरूप नहीं) और / या आपको उस परिपेक्ष्य का एक नया ज्ञान देता है जिसे आप माप रहे हैं, इसे अस्वीकार नहीं किया जाना चाहिए। बाह्य प्रयोगकर्ताओं के साथ व्यवहार करते समय वैज्ञानिक प्रयोग विशेष रूप से अतिसंवेदनशील स्थितियों होते हैं। गलती से एक outlier की उपेक्षा का अर्थ है कि एक प्रवृत्ति या नई खोजों को दर्शाता है

उदाहरण के लिए, मान लीजिए कि हम एक मछली मादक पदार्थ में मछली के आकार को बढ़ाने के लिए एक नई दवा तैयार करने जा रहे हैं। हम इस तरह के डेटा को पहले ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) के रूप में सेट करेंगे, सिवाय इसके कि इस समय, प्रत्येक डेटा मछली के द्रव्यमान का प्रतिनिधित्व करेगा ( जन्म के बाद से एक अलग प्रयोगात्मक दवा के साथ इलाज के बाद) दूसरे शब्दों में, पहली दवा ने मछली को 71 ग्राम वजन करने के लिए प्रेरित किया, दूसरी दवा ने एक और मछली को 70 ग्राम का एक द्रव्य दिया, और इसी तरह। इस स्थिति में, 300 यह अभी भी एक बहुत ही असामान्य मूल्य है, लेकिन हमें इसे अनदेखा नहीं करना चाहिए, क्योंकि यह मानते हुए कि यह किसी त्रुटि के कारण नहीं है, यह हमारे प्रयोग में महत्वपूर्ण सफलता का प्रतिनिधित्व करता है। जिस दवा ने 300 ग्रामों की एक मछली का उत्पादन किया था, वह सब दूसरों की तुलना में अधिक है - यही कारण है कि यह वास्तव में वास्तव में है हमारे डेटा सेट के बजाय, सबसे महत्वपूर्ण कम महत्वपूर्ण

युक्तियाँ

जब आप आउटलेटर्स पाते हैं, तो डेटा सेट से उन्हें हटाने से पहले उनकी उपस्थिति की व्याख्या करने का प्रयास करें। वे वितरण की माप या असामान्यताओं में त्रुटियों का संकेत कर सकते हैं।

आप की आवश्यकता होगी चीजें

कैलकुलेटर

सामाजिक नेटवर्क पर साझा करें:

संबद्ध