मशीन लर्निंग “आगमन कैलेंडर” दिन 7: निर्णय वृक्ष वर्गीकरणकर्ता
Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …
हमने पता लगाया कि कैसे निर्णय वृक्ष प्रतिगामी को न्यूनतम करके अपना इष्टतम विभाजन चुनता है माध्य चुकता त्रुटि (एमएसई).
आज मशीन लर्निंग “एडवेंट कैलेंडर” के सातवें दिन, हम उसी दृष्टिकोण को जारी रखते हैं लेकिन एक के साथ निर्णय वृक्ष वर्गीकरणकर्ताकल के मॉडल का वर्गीकरण समकक्ष।
दो सरल डेटासेट के साथ त्वरित अंतर्ज्ञान प्रयोग
आइए एक बहुत छोटे खिलौना डेटासेट से शुरुआत करें जिसे मैंने तैयार किया है, जिसमें एक संख्यात्मक विशेषता और दो वर्गों के साथ एक लक्ष्य चर है: 0 और 1।
एक नियम के आधार पर डेटासेट को दो भागों में काटने का विचार है। लेकिन सवाल यह है: यह नियम क्या होना चाहिए? वह कौन सा मानदंड है जो हमें बताता है कि कौन सा विभाजन बेहतर है?
अब, भले ही हम अभी तक गणित नहीं जानते हैं, हम पहले से ही डेटा को देख सकते हैं और संभावित विभाजन बिंदुओं का अनुमान लगा सकते हैं।
और दृष्टिगत रूप से, यह होगा 8 या 12सही?
लेकिन सवाल यह है कि संख्यात्मक दृष्टि से कौन अधिक उपयुक्त है।

यदि हम अंतर्ज्ञान से सोचें:
- पर एक विभाजन के साथ 8:
- बायीं ओर: कोई गलत वर्गीकरण नहीं
- दाईं ओर: एक गलत वर्गीकरण
- पर एक विभाजन के साथ 12:
- दाईं ओर: कोई गलत वर्गीकरण नहीं
- बायीं ओर: दो गलत वर्गीकरण
तो स्पष्ट रूप से, 8 पर विभाजन बेहतर लगता है।

अब, आइए एक उदाहरण देखें तीन वर्ग. मैंने कुछ और यादृच्छिक डेटा जोड़ा, और 3 कक्षाएं बनाईं।

यहां मैं उन्हें लेबल करता हूं 0, 1, 3और मैं उन्हें लंबवत रूप से प्लॉट करता हूं।
लेकिन हमें सावधान रहना चाहिए: ये संख्याएँ हैं सिर्फ श्रेणी के नामसंख्यात्मक मान नहीं. उनकी व्याख्या “आदेशित” के रूप में नहीं की जानी चाहिए।
तो अंतर्ज्ञान हमेशा होता है: विभाजन के बाद प्रत्येक क्षेत्र कितना सजातीय है?
लेकिन सर्वोत्तम विभाजन को दृष्टिगत रूप से निर्धारित करना कठिन है।
अब, हमें इस विचार को व्यक्त करने के लिए एक गणितीय तरीके की आवश्यकता है।
यह बिल्कुल अगले अध्याय का विषय है।
विभाजन की कसौटी के रूप में अशुद्धता को मापें
डिसीज़न ट्री रिग्रेसर में, हम पहले से ही जानते हैं:
- किसी क्षेत्र के लिए भविष्यवाणी है औसत लक्ष्य का.
- विभाजन की गुणवत्ता किसके द्वारा मापी जाती है? एमएसई.
निर्णय वृक्ष वर्गीकरणकर्ता में:
- किसी क्षेत्र के लिए भविष्यवाणी है बहुसंख्यक वर्ग क्षेत्र का.
- विभाजन की गुणवत्ता किसके द्वारा मापी जाती है? अशुद्धता माप: गिनी अशुद्धि या एन्ट्रापी.
दोनों पाठ्यपुस्तकों में मानक हैं, और दोनों स्किकिट-लर्न में उपलब्ध हैं। डिफ़ॉल्ट रूप से गिनी का उपयोग किया जाता है।
लेकिन, वास्तव में यह अशुद्धता माप क्या है?
यदि आप के वक्रों को देखें गिनी और एन्ट्रापीवे दोनों एक ही तरह से व्यवहार करते हैं:
- वे हैं 0 जब नोड है शुद्ध (सभी नमूनों की कक्षा समान है)।
- वे अपने तक पहुंचते हैं अधिकतम जब कक्षाएं होती हैं समान रूप से मिश्रित (50 प्रतिशत/50 प्रतिशत).
- वक्र है चिकनासममित, और विकार के साथ बढ़ता है।
यह किसी की भी आवश्यक संपत्ति है अशुद्धता माप:
जब समूह साफ होते हैं तो अशुद्धता कम होती है, और जब समूह मिश्रित होते हैं तो अशुद्धता अधिक होती है।

इसलिए हम इन उपायों का उपयोग यह तय करने के लिए करेंगे कि कौन सा विभाजन पैदा करना है।
एक सतत सुविधा के साथ विभाजित करें
डिसीजन ट्री रेजिस्टर की तरह, हम उसी संरचना का पालन करेंगे।
सभी संभावित विभाजनों की सूची
बिल्कुल प्रतिगामी संस्करण की तरह, एक संख्यात्मक विशेषता के साथ, हमें परीक्षण करने के लिए एकमात्र विभाजन लगातार क्रमबद्ध x मानों के बीच मध्यबिंदु हैं।
प्रत्येक विभाजन के लिए, प्रत्येक पक्ष पर अशुद्धता की गणना करें
आइए, उदाहरण के लिए, एक विभाजित मान लें, एक्स = 5.5.
हम डेटासेट को दो क्षेत्रों में अलग करते हैं:
- क्षेत्र एल: x <5.5
- क्षेत्र आर: x ≥ 5.5
प्रत्येक क्षेत्र के लिए:
- हम प्रेक्षणों की कुल संख्या गिनते हैं
- हम गिनी अशुद्धता की गणना करते हैं
- अंत में, हम विभाजन की भारित अशुद्धता की गणना करते हैं

सबसे कम अशुद्धता वाले विभाजन का चयन करें
प्रतिगामी मामले की तरह:
- सभी संभावित विभाजनों की सूची बनाएं
- प्रत्येक के लिए अशुद्धता की गणना करें
- इष्टतम विभाजन वह है जिसके साथ न्यूनतम अशुद्धता

सभी विभाजनों की सिंथेटिक तालिका
एक्सेल में हर चीज़ को स्वचालित बनाने के लिए,
हम सभी गणनाओं को व्यवस्थित करते हैं एक मेजकहाँ:
- प्रत्येक पंक्ति एक उम्मीदवार विभाजन से मेल खाती है,
- प्रत्येक पंक्ति के लिए, हम गणना करते हैं:
- की गिनी बाएं क्षेत्र,
- की गिनी सही क्षेत्र,
- और यह समग्र भारित गिनी विभाजन का.
यह तालिका हर संभावित विभाजन का एक साफ़, संक्षिप्त अवलोकन देती है,
और सर्वोत्तम विभाजन वह है जिसका मान अंतिम कॉलम में सबसे कम हो।

बहु-वर्ग वर्गीकरण
अब तक, हमने दो वर्गों के साथ काम किया। लेकिन गिनी अशुद्धि स्वाभाविक रूप से फैली हुई है तीन वर्गऔर विभाजन का तर्क बिल्कुल वैसा ही रहता है।
एल्गोरिथम की संरचना में कुछ भी नहीं बदलता:
- हम सभी संभावित विभाजनों को सूचीबद्ध करते हैं,
- हम प्रत्येक पक्ष पर अशुद्धता की गणना करते हैं,
- हम भारित औसत लेते हैं,
- हम सबसे कम अशुद्धता वाले विभाजन का चयन करते हैं।
केवल गिनी अशुद्धि का सूत्र थोड़ा लम्बा हो जाता है।
तीन वर्गों सहित गिनी अशुद्धि
यदि किसी क्षेत्र में अनुपात p1, p2, p3 है
तीन वर्गों के लिए, तो गिनी अशुद्धता है:

पहले जैसा ही विचार:
एक क्षेत्र “शुद्ध” होता है जब एक वर्ग का प्रभुत्व होता है,
और जब कक्षाएं मिश्रित होती हैं तो अशुद्धता बड़ी हो जाती है।
बाएँ और दाएँ क्षेत्र
प्रत्येक विभाजन के लिए:
- क्षेत्र एल में कक्षा 1, 2, और 3 के कुछ अवलोकन शामिल हैं
- क्षेत्र आर में शेष अवलोकन शामिल हैं
प्रत्येक क्षेत्र के लिए:
- गिनें कि प्रत्येक वर्ग के कितने अंक हैं
- अनुपात p1,p2,p3 की गणना करें
- उपरोक्त सूत्र का उपयोग करके गिनी अशुद्धता की गणना करें
सब कुछ बिल्कुल बाइनरी मामले जैसा ही है, बस एक और पद के साथ।
3-वर्ग विभाजन के लिए सारांश तालिका
पहले की तरह, हम सभी गणनाओं को एक तालिका में एकत्रित करते हैं:
- प्रत्येक पंक्ति एक संभावित विभाजन है
- हम कक्षा 1, कक्षा 2, कक्षा 3 को बाईं ओर गिनते हैं
- हम कक्षा 1, कक्षा 2, कक्षा 3 को दाहिनी ओर गिनते हैं
- हम गिनी (बाएं), गिनी (दाएं), और भारित गिनी की गणना करते हैं
के साथ विभाजन सबसे छोटी भारित अशुद्धता वह निर्णय वृक्ष द्वारा चुना गया है।

हम Gini या एन्ट्रॉपी की गणना करने के लिए इन निम्नलिखित सूत्रों का उपयोग करके आसानी से K वर्गों के लिए एल्गोरिदम को सामान्यीकृत कर सकते हैं

वास्तव में अशुद्धता के उपाय कितने भिन्न हैं?
अब, हम हमेशा मानदंड के रूप में गिनी या एन्ट्रॉपी का उल्लेख करते हैं, लेकिन क्या वे वास्तव में भिन्न हैं?? गणितीय सूत्रों को देखते समय, कुछ लोग कह सकते हैं
जवाब इतना नहीं है.
सैद्धांतिक रूप से, लगभग सभी व्यावहारिक स्थितियों में:
- गिनी और एन्ट्रॉपी समान विभाजन चुनें
- वृक्ष संरचना है लगभग समान
- भविष्यवाणियाँ हैं जो उसी
क्यों?
क्योंकि उनके कर्व्स बेहद एक जैसे दिखते हैं।
वे दोनों 50 प्रतिशत मिश्रण पर चरम पर होते हैं और शुद्धता पर शून्य तक गिर जाते हैं।
फर्क सिर्फ इतना है आकार वक्र का:
- गिनी एक है द्विघात फ़ंक्शन। यह गलत वर्गीकरण को अधिक रैखिक रूप से दंडित करता है।
- एन्ट्रापी एक है लघुगणक फ़ंक्शन, इसलिए यह 0.5 के करीब अनिश्चितता को थोड़ा अधिक मजबूती से दंडित करता है।
लेकिन व्यवहार में अंतर छोटा है, और आप इसे एक्सेल में कर सकते हैं!
अन्य अशुद्धता उपाय?
एक और स्वाभाविक प्रश्न: क्या अन्य उपायों का आविष्कार/उपयोग करना संभव है?
हाँ, आप अपने स्वयं के फ़ंक्शन का आविष्कार कर सकते हैं, जब तक:
- यह है 0 जब नोड शुद्ध हो
- यह है अधिक से अधिक जब कक्षाएं मिश्रित होती हैं
- यह है चिकना और “अव्यवस्था” में सख्ती से वृद्धि हो रही है
उदाहरण के लिए: अशुद्धता = 4*p0*p1
यह एक और वैध अशुद्धता उपाय है. और यह वास्तव में बराबर है गिनी जब केवल दो वर्ग हों तो एक स्थिरांक से गुणा किया जाता है।
तो फिर, यह देता है वही विभाजन. यदि आप आश्वस्त नहीं हैं, तो आप कर सकते हैं
यहां कुछ अन्य उपाय दिए गए हैं जिनका भी उपयोग किया जा सकता है।

एक्सेल में व्यायाम
अन्य मापदंडों और सुविधाओं के साथ परीक्षण
एक बार जब आप पहला विभाजन बना लेते हैं, तो आप अपनी फ़ाइल का विस्तार कर सकते हैं:
- कोशिश एन्ट्रापी गिनी की जगह
- जोड़ने का प्रयास करें श्रेणीबद्ध विशेषताएं
- बनाने का प्रयास करें अगला विभाजन
- बदलने का प्रयास करें अधिकतम गहराई और अंडर- और ओवर-फिटिंग का निरीक्षण करें
- भविष्यवाणियों के लिए एक भ्रम मैट्रिक्स बनाने का प्रयास करें
ये सरल परीक्षण आपको पहले से ही एक अच्छा अंतर्ज्ञान देते हैं कि वास्तविक निर्णय वृक्ष कैसे व्यवहार करते हैं।
टाइटैनिक सर्वाइवल डेटासेट के नियमों का कार्यान्वयन
प्रसिद्ध के लिए निर्णय नियमों को फिर से बनाना एक स्वाभाविक अनुवर्ती अभ्यास है टाइटैनिक सर्वाइवल डेटासेट (CC0 / सार्वजनिक डोमेन).
सबसे पहले, हम केवल दो विशेषताओं से शुरुआत कर सकते हैं: सेक्स और आयु.
एक्सेल में नियमों को लागू करना लंबा और थोड़ा कठिन है, लेकिन यही बात है: यह आपको एहसास कराता है कि निर्णय नियम वास्तव में कैसे दिखते हैं।
वे एक क्रम से अधिक कुछ नहीं हैं यदि/अन्यथा बयान, बार-बार दोहराए गए।
यह निर्णय वृक्ष की वास्तविक प्रकृति है: सरल नियम, एक दूसरे के ऊपर रखे गए।

निष्कर्ष
एक्सेल में डिसीजन ट्री क्लासिफायर लागू करना आश्चर्यजनक रूप से सुलभ है।
कुछ सूत्रों के साथ, आप एल्गोरिथम के मूल को उजागर करते हैं:
- संभावित विभाजनों की सूची बनाएं
- अशुद्धता की गणना करें
- सबसे साफ़ विभाजन चुनें

यह सरल तंत्र अधिक उन्नत संयोजन मॉडल की नींव है ग्रेडिएंट बूस्टेड पेड़जिस पर हम इस श्रृंखला में बाद में चर्चा करेंगे।
और बने रहें दिन 8 कल!
(टैग्सटूट्रांसलेट)एल्गोरिदम(टी)आर्टिफिशियल इंटेलिजेंस(टी)डेटा साइंस(टी)डिसीजन ट्री(टी)मशीन लर्निंग
Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …
Source link
