मशीन लर्निंग “एडवेंट कैलेंडर” दिन 13: एक्सेल में LASSO और रिज रिग्रेशन
Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …
एक दिन, एक डेटा वैज्ञानिक ने बताया कि रिज रिग्रेशन एक जटिल मॉडल था। क्योंकि उन्होंने देखा कि प्रशिक्षण का फार्मूला अधिक जटिल है।
खैर, इस प्रकार की जटिलता को स्पष्ट करना मेरे मशीन लर्निंग “एडवेंट कैलेंडर” का बिल्कुल यही उद्देश्य है।
तो, आइए, हम रैखिक प्रतिगमन के दंडित संस्करणों के बारे में बात करेंगे।
- सबसे पहले, हम देखेंगे कि नियमितीकरण या दंड क्यों आवश्यक है, और हम देखेंगे कि मॉडल को कैसे संशोधित किया जाता है
- फिर हम विभिन्न प्रकार के नियमितीकरण और उनके प्रभावों का पता लगाएंगे।
- हम मॉडल को नियमितीकरण के साथ प्रशिक्षित भी करेंगे और विभिन्न हाइपरपैरामीटर का परीक्षण भी करेंगे।
- हम दंड अवधि में बाटों को कैसे तौला जाए, इसके बारे में एक और प्रश्न भी पूछेंगे। (भ्रमित? आप देखेंगे)
रेखीय प्रतिगमन और इसकी “स्थितियाँ”
जब हम रैखिक प्रतिगमन के बारे में बात करते हैं, तो लोग अक्सर उल्लेख करते हैं कि कुछ शर्तों को पूरा किया जाना चाहिए।
आपने ऐसे कथन सुने होंगे:
- अवशिष्ट गाऊसी होना चाहिए (कभी-कभी यह भ्रम हो जाता है कि लक्ष्य गाऊसी है, जो गलत है)
- व्याख्यात्मक चर संरेख नहीं होने चाहिए
शास्त्रीय सांख्यिकी में, अनुमान के लिए इन शर्तों की आवश्यकता होती है। मशीन लर्निंग में, भविष्यवाणी पर ध्यान केंद्रित किया जाता है, इसलिए ये धारणाएँ कम केंद्रीय हैं, लेकिन अंतर्निहित मुद्दे अभी भी मौजूद हैं।
यहां, हम दो विशेषताओं के संरेख होने का उदाहरण देखेंगे, और आइए उन्हें पूरी तरह से समान बनाते हैं।
और हमारा संबंध है: y = x1 + x2, और x1 = x2
मैं जानता हूं कि यदि वे पूरी तरह से बराबर हैं, तो हम बस इतना कर सकते हैं: y=2*x1। लेकिन कहने का तात्पर्य यह है कि वे बहुत समान हो सकते हैं, और हम हमेशा उनका उपयोग करके एक मॉडल बना सकते हैं, है ना?
तो फिर समस्या क्या है?
जब विशेषताएँ पूर्णतया संरेख होती हैं, तो समाधान अद्वितीय नहीं होता है। यहां नीचे स्क्रीनशॉट में एक उदाहरण दिया गया है.
y = 10000*x1 – 9998*x2

और हम देख सकते हैं कि गुणांकों का मान बहुत बड़ा है।
तो, विचार गुणांक के मानदंड को सीमित करने का है।
और नियमितीकरण लागू करने के बाद, वैचारिक मॉडल वही है!
यह सही है। रेखीय प्रतिगमन के पैरामीटर बदल दिए गए हैं। लेकिन मॉडल वही है.
नियमितीकरण के विभिन्न संस्करण
तो विचार एमएसई और गुणांक के मानदंड को संयोजित करने का है।
केवल एमएसई को न्यूनतम करने के बजाय, हम दो शब्दों के योग को कम करने का प्रयास करते हैं।
कौन सा मानदंड? हम मानक L1, L2 के साथ काम कर सकते हैं या उन्हें जोड़ भी सकते हैं।
ऐसा करने के तीन शास्त्रीय तरीके और संबंधित मॉडल नाम हैं।
रिज रिग्रेशन (L2 पेनल्टी)
रिज रिग्रेशन पर जुर्माना जोड़ा जाता है वर्ग मान गुणांकों का.
सहज रूप से:
- बड़े गुणांकों पर भारी जुर्माना लगाया जाता है (वर्ग के कारण)
- गुणांक शून्य की ओर धकेल दिए जाते हैं
- लेकिन वे कभी भी पूर्णतः शून्य नहीं होते
प्रभाव:
- सभी सुविधाएँ मॉडल में बनी रहती हैं
- गुणांक चिकने और अधिक स्थिर होते हैं
- संरेखता के विरुद्ध बहुत प्रभावी
चोटी सिकुड़तालेकिन चयन नहीं करता.

लैस्सो प्रतिगमन (L1 दंड)
लैस्सो एक अलग दंड का उपयोग करता है: द निरपेक्ष मूल्य गुणांकों का.
इस छोटे से परिवर्तन का बड़ा परिणाम होता है।
लैस्सो के साथ:
- कुछ गुणांक बन सकते हैं बिल्कुल शून्य
- मॉडल स्वचालित रूप से कुछ सुविधाओं को अनदेखा कर देता है
इसीलिए इसे LASSO कहा जाता है, क्योंकि इसका मतलब है न्यूनतम निरपेक्ष संकोचन और चयन संचालक.
- संचालिका: यह हानि फ़ंक्शन में जोड़े गए नियमितीकरण ऑपरेटर को संदर्भित करता है
- कम से कम: यह न्यूनतम-वर्ग प्रतिगमन ढांचे से लिया गया है
- निरपेक्ष: यह गुणांकों के निरपेक्ष मान (L1 मानदंड) का उपयोग करता है
- संकुचन: यह गुणांकों को शून्य की ओर सिकोड़ देता है
- चयन: यह फीचर चयन करते हुए कुछ गुणांकों को बिल्कुल शून्य पर सेट कर सकता है
महत्वपूर्ण बारीकियाँ:
- हम कह सकते हैं कि मॉडल में अभी भी गुणांकों की संख्या समान है
- लेकिन उनमें से कुछ को प्रशिक्षण के दौरान शून्य करने के लिए मजबूर किया जाता है
मॉडल का स्वरूप अपरिवर्तित है, लेकिन लैस्सो गुणांकों को शून्य पर लाकर सुविधाओं को प्रभावी ढंग से हटा देता है।

3. इलास्टिक नेट (L1 + L2)
इलास्टिक नेट एक है संयोजन रिज और लास्सो का।
यह उपयोगकर्ता है:
- L1 जुर्माना (लैस्सो की तरह)
- और एक L2 जुर्माना (रिज की तरह)
उन्हें क्यों संयोजित करें?
क्योंकि:
- जब सुविधाएँ अत्यधिक सहसंबद्ध होती हैं तो लैस्सो अस्थिर हो सकता है
- रिज संरेखता को अच्छी तरह से संभालता है लेकिन सुविधाओं का चयन नहीं करता है
इलास्टिक नेट इनके बीच संतुलन देता है:
- स्थिरता
- संकुचन
- विरलता
वास्तविक डेटासेट में यह अक्सर सबसे व्यावहारिक विकल्प होता है।
वास्तव में क्या बदलता है: मॉडल, प्रशिक्षण, ट्यूनिंग
आइए इसे मशीन लर्निंग के दृष्टिकोण से देखें।
मॉडल वास्तव में नहीं बदलता है
के लिए नमूनासभी नियमित संस्करणों के लिए, हम अभी भी लिखते हैं:
y =ax + b.
- गुणांकों की समान संख्या
- वही भविष्यवाणी सूत्र
- लेकिन, गुणांक भिन्न होंगे.
एक निश्चित दृष्टिकोण से, रिज, लासो और इलास्टिक नेट हैं अलग-अलग मॉडल नहीं.
प्रशिक्षण सिद्धांत भी वही है
हम अभी भी:
- हानि फ़ंक्शन को परिभाषित करें
- इसे कम से कम करें
- ग्रेडियेंट की गणना करें
- अद्यतन गुणांक
फर्क सिर्फ इतना है:
- हानि फ़ंक्शन में अब दंड अवधि शामिल है
यही वह है।
हाइपरपैरामीटर जोड़े गए हैं (यह वास्तविक अंतर है)
रैखिक प्रतिगमन के लिए, हमारे पास मॉडल की “जटिलता” का नियंत्रण नहीं है।
- मानक रैखिक प्रतिगमन: कोई हाइपरपैरामीटर नहीं
- रिज: एक हाइपरपैरामीटर (लैम्ब्डा)
- कमंद: एक हाइपरपैरामीटर (लैम्ब्डा)
- इलास्टिक नेट: दो हाइपरपैरामीटर
- समग्र नियमितीकरण शक्ति के लिए एक
- L1 बनाम L2 को संतुलित करने के लिए एक
इसलिए:
- मानक रैखिक प्रतिगमन को ट्यूनिंग की आवश्यकता नहीं है
- दंडित प्रतिगमन करते हैं
यही कारण है कि मानक रैखिक प्रतिगमन को अक्सर “वास्तव में मशीन लर्निंग नहीं” के रूप में देखा जाता है, जबकि नियमित संस्करण स्पष्ट रूप से होते हैं।
नियमित ग्रेडिएंट्स का कार्यान्वयन
हम ओएलएस रिग्रेशन के ग्रेडिएंट डिसेंट को संदर्भ के रूप में रखते हैं, और रिज रिग्रेशन के लिए, हमें केवल गुणांक के लिए नियमितीकरण शब्द जोड़ना होगा।
हम एक सरल डेटासेट का उपयोग करेंगे जो मैंने तैयार किया था (वही जिसे हम पहले से ही रैखिक प्रतिगमन के लिए उपयोग कर चुके हैं)।
हम देख सकते हैं कि 3 “मॉडल” गुणांक के संदर्भ में भिन्न हैं। और इस अध्याय का लक्ष्य सभी मॉडलों के लिए ग्रेडिएंट लागू करना और उनकी तुलना करना है।

दंडित ग्रेडिएंट के साथ रिज
सबसे पहले, हम रिज के लिए कर सकते हैं, और हमें केवल a का ग्रेडिएंट बदलना होगा।
अब, इसका मतलब यह नहीं है कि मान b नहीं बदला है, क्योंकि b का ग्रेडिएंट प्रत्येक चरण a पर भी निर्भर करता है।

दंडित ग्रेडिएंट के साथ LASSO
फिर हम LASSO के लिए भी ऐसा ही कर सकते हैं।
और एकमात्र अंतर ए के ग्रेडिएंट का भी है।
प्रत्येक मॉडल के लिए, हम एमएसई और नियमित एमएसई की गणना भी कर सकते हैं। यह देखना काफी संतोषजनक है कि पुनरावृत्तियों के दौरान वे कैसे कम होते जाते हैं।

गुणांकों की तुलना
अब, हम तीनों मॉडलों के लिए गुणांक a की कल्पना कर सकते हैं। अंतर देखने के लिए, हम बहुत बड़े लैम्ब्डा इनपुट करते हैं।

लैम्ब्डा का प्रभाव
लैम्ब्डा के बड़े मूल्य के लिए, हम देखेंगे कि गुणांक छोटा हो जाता है।
और यदि लैम्ब्डा LASSO बहुत बड़ा हो जाता है, तो हमें सैद्धांतिक रूप से a के लिए 0 का मान मिलता है। संख्यात्मक रूप से, हमें ग्रेडिएंट डिसेंट में सुधार करना होगा।

नियमित लॉजिस्टिक रिग्रेशन?
हमने कल लॉजिस्टिक रिग्रेशन देखा, और एक सवाल जो हम पूछ सकते हैं वह यह है कि क्या इसे भी नियमित किया जा सकता है। यदि हां, तो उन्हें कैसे कहा जाता है?
इसका उत्तर निश्चित रूप से हां है, लॉजिस्टिक रिग्रेशन को नियमित किया जा सकता है
बिल्कुल यही विचार लागू होता है.
लॉजिस्टिक रिग्रेशन भी हो सकता है:
- एल1 को दंडित किया गया
- एल2 को दंडित किया गया
- इलास्टिक नेट को दंडित किया गया
वहाँ हैं कोई विशेष नाम नहीं जैसे आम उपयोग में “रिज लॉजिस्टिक रिग्रेशन”।
क्यों?
क्योंकि यह अवधारणा अब नई नहीं रही.
व्यवहार में, स्किकिट-लर्न जैसी लाइब्रेरी आपको बस यह निर्दिष्ट करने देती है:
- हानि समारोह
- दंड का प्रकार
- नियमितीकरण की ताकत
जब विचार नया था तो नामकरण मायने रखता था।
अब, नियमितीकरण सिर्फ एक मानक विकल्प है।
अन्य प्रश्न जो हम पूछ सकते हैं:
- क्या नियमितीकरण हमेशा उपयोगी होता है?
- सुविधाओं की स्केलिंग नियमित रैखिक प्रतिगमन के प्रदर्शन को कैसे प्रभावित करती है?
निष्कर्ष
रिज और लैस्सो रैखिक मॉडल को ही नहीं बदलते हैं, वे गुणांक सीखने के तरीके को बदलते हैं। जुर्माना जोड़कर, नियमितीकरण स्थिर और सार्थक समाधानों का पक्ष लेता है, खासकर जब सुविधाएँ सहसंबद्ध होती हैं। इस प्रक्रिया को एक्सेल में चरण दर चरण देखने से यह स्पष्ट हो जाता है कि ये विधियाँ अधिक जटिल नहीं हैं, बस अधिक नियंत्रित हैं।
(टैग्सटूट्रांसलेट)आर्टिफिशियल इंटेलिजेंस(टी)डेटा साइंस(टी)मशीन लर्निंग
Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …
Source link
