मशीन लर्निंग “आगमन कैलेंडर” दिन 7: निर्णय वृक्ष वर्गीकरणकर्ता

Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …

हमने पता लगाया कि कैसे निर्णय वृक्ष प्रतिगामी को न्यूनतम करके अपना इष्टतम विभाजन चुनता है माध्य चुकता त्रुटि (एमएसई).

आज मशीन लर्निंग “एडवेंट कैलेंडर” के सातवें दिन, हम उसी दृष्टिकोण को जारी रखते हैं लेकिन एक के साथ निर्णय वृक्ष वर्गीकरणकर्ताकल के मॉडल का वर्गीकरण समकक्ष।

दो सरल डेटासेट के साथ त्वरित अंतर्ज्ञान प्रयोग

आइए एक बहुत छोटे खिलौना डेटासेट से शुरुआत करें जिसे मैंने तैयार किया है, जिसमें एक संख्यात्मक विशेषता और दो वर्गों के साथ एक लक्ष्य चर है: 0 और 1।

एक नियम के आधार पर डेटासेट को दो भागों में काटने का विचार है। लेकिन सवाल यह है: यह नियम क्या होना चाहिए? वह कौन सा मानदंड है जो हमें बताता है कि कौन सा विभाजन बेहतर है?

अब, भले ही हम अभी तक गणित नहीं जानते हैं, हम पहले से ही डेटा को देख सकते हैं और संभावित विभाजन बिंदुओं का अनुमान लगा सकते हैं।

और दृष्टिगत रूप से, यह होगा 8 या 12सही?

लेकिन सवाल यह है कि संख्यात्मक दृष्टि से कौन अधिक उपयुक्त है।

image 57
एक्सेल में डिसीजन ट्री क्लासिफायर – लेखक द्वारा छवि

यदि हम अंतर्ज्ञान से सोचें:

  • पर एक विभाजन के साथ 8:
    • बायीं ओर: कोई गलत वर्गीकरण नहीं
    • दाईं ओर: एक गलत वर्गीकरण
  • पर एक विभाजन के साथ 12:
    • दाईं ओर: कोई गलत वर्गीकरण नहीं
    • बायीं ओर: दो गलत वर्गीकरण

तो स्पष्ट रूप से, 8 पर विभाजन बेहतर लगता है।

image 89

अब, आइए एक उदाहरण देखें तीन वर्ग. मैंने कुछ और यादृच्छिक डेटा जोड़ा, और 3 कक्षाएं बनाईं।

image 90

यहां मैं उन्हें लेबल करता हूं 0, 1, 3और मैं उन्हें लंबवत रूप से प्लॉट करता हूं।

लेकिन हमें सावधान रहना चाहिए: ये संख्याएँ हैं सिर्फ श्रेणी के नामसंख्यात्मक मान नहीं. उनकी व्याख्या “आदेशित” के रूप में नहीं की जानी चाहिए।

तो अंतर्ज्ञान हमेशा होता है: विभाजन के बाद प्रत्येक क्षेत्र कितना सजातीय है?

लेकिन सर्वोत्तम विभाजन को दृष्टिगत रूप से निर्धारित करना कठिन है।

अब, हमें इस विचार को व्यक्त करने के लिए एक गणितीय तरीके की आवश्यकता है।

यह बिल्कुल अगले अध्याय का विषय है।

विभाजन की कसौटी के रूप में अशुद्धता को मापें

डिसीज़न ट्री रिग्रेसर में, हम पहले से ही जानते हैं:

  • किसी क्षेत्र के लिए भविष्यवाणी है औसत लक्ष्य का.
  • विभाजन की गुणवत्ता किसके द्वारा मापी जाती है? एमएसई.

निर्णय वृक्ष वर्गीकरणकर्ता में:

  • किसी क्षेत्र के लिए भविष्यवाणी है बहुसंख्यक वर्ग क्षेत्र का.
  • विभाजन की गुणवत्ता किसके द्वारा मापी जाती है? अशुद्धता माप: गिनी अशुद्धि या एन्ट्रापी.

दोनों पाठ्यपुस्तकों में मानक हैं, और दोनों स्किकिट-लर्न में उपलब्ध हैं। डिफ़ॉल्ट रूप से गिनी का उपयोग किया जाता है।

लेकिन, वास्तव में यह अशुद्धता माप क्या है?

यदि आप के वक्रों को देखें गिनी और एन्ट्रापीवे दोनों एक ही तरह से व्यवहार करते हैं:

  • वे हैं 0 जब नोड है शुद्ध (सभी नमूनों की कक्षा समान है)।
  • वे अपने तक पहुंचते हैं अधिकतम जब कक्षाएं होती हैं समान रूप से मिश्रित (50 प्रतिशत/50 प्रतिशत).
  • वक्र है चिकनासममित, और विकार के साथ बढ़ता है।

यह किसी की भी आवश्यक संपत्ति है अशुद्धता माप:

जब समूह साफ होते हैं तो अशुद्धता कम होती है, और जब समूह मिश्रित होते हैं तो अशुद्धता अधिक होती है।

image 58
एक्सेल में डिसीजन ट्री क्लासिफायर – गिनी और एन्ट्रॉपी – लेखक द्वारा छवि

इसलिए हम इन उपायों का उपयोग यह तय करने के लिए करेंगे कि कौन सा विभाजन पैदा करना है।

एक सतत सुविधा के साथ विभाजित करें

डिसीजन ट्री रेजिस्टर की तरह, हम उसी संरचना का पालन करेंगे।

सभी संभावित विभाजनों की सूची

बिल्कुल प्रतिगामी संस्करण की तरह, एक संख्यात्मक विशेषता के साथ, हमें परीक्षण करने के लिए एकमात्र विभाजन लगातार क्रमबद्ध x मानों के बीच मध्यबिंदु हैं।

प्रत्येक विभाजन के लिए, प्रत्येक पक्ष पर अशुद्धता की गणना करें

आइए, उदाहरण के लिए, एक विभाजित मान लें, एक्स = 5.5.

हम डेटासेट को दो क्षेत्रों में अलग करते हैं:

  • क्षेत्र एल: x <5.5
  • क्षेत्र आर: x ≥ 5.5

प्रत्येक क्षेत्र के लिए:

  1. हम प्रेक्षणों की कुल संख्या गिनते हैं
  2. हम गिनी अशुद्धता की गणना करते हैं
  3. अंत में, हम विभाजन की भारित अशुद्धता की गणना करते हैं
image 60
एक्सेल में डिसीजन ट्री क्लासिफायर – लेखक द्वारा छवि

सबसे कम अशुद्धता वाले विभाजन का चयन करें

प्रतिगामी मामले की तरह:

  • सभी संभावित विभाजनों की सूची बनाएं
  • प्रत्येक के लिए अशुद्धता की गणना करें
  • इष्टतम विभाजन वह है जिसके साथ न्यूनतम अशुद्धता
image 61
एक्सेल में डिसीजन ट्री क्लासिफायर – लेखक द्वारा छवि

सभी विभाजनों की सिंथेटिक तालिका

एक्सेल में हर चीज़ को स्वचालित बनाने के लिए,
हम सभी गणनाओं को व्यवस्थित करते हैं एक मेजकहाँ:

  • प्रत्येक पंक्ति एक उम्मीदवार विभाजन से मेल खाती है,
  • प्रत्येक पंक्ति के लिए, हम गणना करते हैं:
    • की गिनी बाएं क्षेत्र,
    • की गिनी सही क्षेत्र,
    • और यह समग्र भारित गिनी विभाजन का.

यह तालिका हर संभावित विभाजन का एक साफ़, संक्षिप्त अवलोकन देती है,
और सर्वोत्तम विभाजन वह है जिसका मान अंतिम कॉलम में सबसे कम हो।

image 80
एक्सेल में डिसीजन ट्री क्लासिफायर – लेखक द्वारा छवि

बहु-वर्ग वर्गीकरण

अब तक, हमने दो वर्गों के साथ काम किया। लेकिन गिनी अशुद्धि स्वाभाविक रूप से फैली हुई है तीन वर्गऔर विभाजन का तर्क बिल्कुल वैसा ही रहता है।

एल्गोरिथम की संरचना में कुछ भी नहीं बदलता:

  • हम सभी संभावित विभाजनों को सूचीबद्ध करते हैं,
  • हम प्रत्येक पक्ष पर अशुद्धता की गणना करते हैं,
  • हम भारित औसत लेते हैं,
  • हम सबसे कम अशुद्धता वाले विभाजन का चयन करते हैं।

केवल गिनी अशुद्धि का सूत्र थोड़ा लम्बा हो जाता है।

तीन वर्गों सहित गिनी अशुद्धि

यदि किसी क्षेत्र में अनुपात p1, p2, p3 है

तीन वर्गों के लिए, तो गिनी अशुद्धता है:

image 82

पहले जैसा ही विचार:
एक क्षेत्र “शुद्ध” होता है जब एक वर्ग का प्रभुत्व होता है,
और जब कक्षाएं मिश्रित होती हैं तो अशुद्धता बड़ी हो जाती है।

बाएँ और दाएँ क्षेत्र

प्रत्येक विभाजन के लिए:

  • क्षेत्र एल में कक्षा 1, 2, और 3 के कुछ अवलोकन शामिल हैं
  • क्षेत्र आर में शेष अवलोकन शामिल हैं

प्रत्येक क्षेत्र के लिए:

  1. गिनें कि प्रत्येक वर्ग के कितने अंक हैं
  2. अनुपात p1,p2,p3 की गणना करें
  3. उपरोक्त सूत्र का उपयोग करके गिनी अशुद्धता की गणना करें

सब कुछ बिल्कुल बाइनरी मामले जैसा ही है, बस एक और पद के साथ।

3-वर्ग विभाजन के लिए सारांश तालिका

पहले की तरह, हम सभी गणनाओं को एक तालिका में एकत्रित करते हैं:

  • प्रत्येक पंक्ति एक संभावित विभाजन है
  • हम कक्षा 1, कक्षा 2, कक्षा 3 को बाईं ओर गिनते हैं
  • हम कक्षा 1, कक्षा 2, कक्षा 3 को दाहिनी ओर गिनते हैं
  • हम गिनी (बाएं), गिनी (दाएं), और भारित गिनी की गणना करते हैं

के साथ विभाजन सबसे छोटी भारित अशुद्धता वह निर्णय वृक्ष द्वारा चुना गया है।

image 91
एक्सेल में डिसीजन ट्री क्लासिफायर – लेखक द्वारा छवि

हम Gini या एन्ट्रॉपी की गणना करने के लिए इन निम्नलिखित सूत्रों का उपयोग करके आसानी से K वर्गों के लिए एल्गोरिदम को सामान्यीकृत कर सकते हैं

image 88
एक्सेल में डिसीजन ट्री क्लासिफायर – लेखक द्वारा छवि

वास्तव में अशुद्धता के उपाय कितने भिन्न हैं?

अब, हम हमेशा मानदंड के रूप में गिनी या एन्ट्रॉपी का उल्लेख करते हैं, लेकिन क्या वे वास्तव में भिन्न हैं?? गणितीय सूत्रों को देखते समय, कुछ लोग कह सकते हैं

जवाब इतना नहीं है.

सैद्धांतिक रूप से, लगभग सभी व्यावहारिक स्थितियों में:

  • गिनी और एन्ट्रॉपी समान विभाजन चुनें
  • वृक्ष संरचना है लगभग समान
  • भविष्यवाणियाँ हैं जो उसी

क्यों?

क्योंकि उनके कर्व्स बेहद एक जैसे दिखते हैं।

वे दोनों 50 प्रतिशत मिश्रण पर चरम पर होते हैं और शुद्धता पर शून्य तक गिर जाते हैं।

फर्क सिर्फ इतना है आकार वक्र का:

  • गिनी एक है द्विघात फ़ंक्शन।​ यह गलत वर्गीकरण को अधिक रैखिक रूप से दंडित करता है।
  • एन्ट्रापी एक है लघुगणक फ़ंक्शन, इसलिए यह 0.5 के करीब अनिश्चितता को थोड़ा अधिक मजबूती से दंडित करता है।

लेकिन व्यवहार में अंतर छोटा है, और आप इसे एक्सेल में कर सकते हैं!

अन्य अशुद्धता उपाय?

एक और स्वाभाविक प्रश्न: क्या अन्य उपायों का आविष्कार/उपयोग करना संभव है?

हाँ, आप अपने स्वयं के फ़ंक्शन का आविष्कार कर सकते हैं, जब तक:

  • यह है 0 जब नोड शुद्ध हो
  • यह है अधिक से अधिक जब कक्षाएं मिश्रित होती हैं
  • यह है चिकना और “अव्यवस्था” में सख्ती से वृद्धि हो रही है

उदाहरण के लिए: अशुद्धता = 4*p0*p1

यह एक और वैध अशुद्धता उपाय है. और यह वास्तव में बराबर है गिनी जब केवल दो वर्ग हों तो एक स्थिरांक से गुणा किया जाता है।

तो फिर, यह देता है वही विभाजन. यदि आप आश्वस्त नहीं हैं, तो आप कर सकते हैं

यहां कुछ अन्य उपाय दिए गए हैं जिनका भी उपयोग किया जा सकता है।

image 59
एक्सेल में डिसीजन ट्री क्लासिफायर – कई अशुद्धता माप – लेखक द्वारा छवि

एक्सेल में व्यायाम

अन्य मापदंडों और सुविधाओं के साथ परीक्षण

एक बार जब आप पहला विभाजन बना लेते हैं, तो आप अपनी फ़ाइल का विस्तार कर सकते हैं:

  • कोशिश एन्ट्रापी गिनी की जगह
  • जोड़ने का प्रयास करें श्रेणीबद्ध विशेषताएं
  • बनाने का प्रयास करें अगला विभाजन
  • बदलने का प्रयास करें अधिकतम गहराई और अंडर- और ओवर-फिटिंग का निरीक्षण करें
  • भविष्यवाणियों के लिए एक भ्रम मैट्रिक्स बनाने का प्रयास करें

ये सरल परीक्षण आपको पहले से ही एक अच्छा अंतर्ज्ञान देते हैं कि वास्तविक निर्णय वृक्ष कैसे व्यवहार करते हैं।

टाइटैनिक सर्वाइवल डेटासेट के नियमों का कार्यान्वयन

प्रसिद्ध के लिए निर्णय नियमों को फिर से बनाना एक स्वाभाविक अनुवर्ती अभ्यास है टाइटैनिक सर्वाइवल डेटासेट (CC0 / सार्वजनिक डोमेन).

सबसे पहले, हम केवल दो विशेषताओं से शुरुआत कर सकते हैं: सेक्स और आयु.

एक्सेल में नियमों को लागू करना लंबा और थोड़ा कठिन है, लेकिन यही बात है: यह आपको एहसास कराता है कि निर्णय नियम वास्तव में कैसे दिखते हैं।

वे एक क्रम से अधिक कुछ नहीं हैं यदि/अन्यथा बयान, बार-बार दोहराए गए।

यह निर्णय वृक्ष की वास्तविक प्रकृति है: सरल नियम, एक दूसरे के ऊपर रखे गए।

image 65
टाइटैनिक सर्वाइवल डेटासेट के लिए एक्सेल में डिसीजन ट्री क्लासिफायर (CC0 / सार्वजनिक डोमेन) – लेखक द्वारा छवि

निष्कर्ष

एक्सेल में डिसीजन ट्री क्लासिफायर लागू करना आश्चर्यजनक रूप से सुलभ है।

कुछ सूत्रों के साथ, आप एल्गोरिथम के मूल को उजागर करते हैं:

  • संभावित विभाजनों की सूची बनाएं
  • अशुद्धता की गणना करें
  • सबसे साफ़ विभाजन चुनें
image 64
एक्सेल में डिसीजन ट्री क्लासिफायर – लेखक द्वारा छवि

यह सरल तंत्र अधिक उन्नत संयोजन मॉडल की नींव है ग्रेडिएंट बूस्टेड पेड़जिस पर हम इस श्रृंखला में बाद में चर्चा करेंगे।

और बने रहें दिन 8 कल!

(टैग्सटूट्रांसलेट)एल्गोरिदम(टी)आर्टिफिशियल इंटेलिजेंस(टी)डेटा साइंस(टी)डिसीजन ट्री(टी)मशीन लर्निंग
Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *