मशीन लर्निंग “एडवेंट कैलेंडर” दिन 13: एक्सेल में LASSO और रिज रिग्रेशन

Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …

एक दिन, एक डेटा वैज्ञानिक ने बताया कि रिज रिग्रेशन एक जटिल मॉडल था। क्योंकि उन्होंने देखा कि प्रशिक्षण का फार्मूला अधिक जटिल है।

खैर, इस प्रकार की जटिलता को स्पष्ट करना मेरे मशीन लर्निंग “एडवेंट कैलेंडर” का बिल्कुल यही उद्देश्य है।

तो, आइए, हम रैखिक प्रतिगमन के दंडित संस्करणों के बारे में बात करेंगे।

  • सबसे पहले, हम देखेंगे कि नियमितीकरण या दंड क्यों आवश्यक है, और हम देखेंगे कि मॉडल को कैसे संशोधित किया जाता है
  • फिर हम विभिन्न प्रकार के नियमितीकरण और उनके प्रभावों का पता लगाएंगे।
  • हम मॉडल को नियमितीकरण के साथ प्रशिक्षित भी करेंगे और विभिन्न हाइपरपैरामीटर का परीक्षण भी करेंगे।
  • हम दंड अवधि में बाटों को कैसे तौला जाए, इसके बारे में एक और प्रश्न भी पूछेंगे। (भ्रमित? आप देखेंगे)

रेखीय प्रतिगमन और इसकी “स्थितियाँ”

जब हम रैखिक प्रतिगमन के बारे में बात करते हैं, तो लोग अक्सर उल्लेख करते हैं कि कुछ शर्तों को पूरा किया जाना चाहिए।

आपने ऐसे कथन सुने होंगे:

  • अवशिष्ट गाऊसी होना चाहिए (कभी-कभी यह भ्रम हो जाता है कि लक्ष्य गाऊसी है, जो गलत है)
  • व्याख्यात्मक चर संरेख नहीं होने चाहिए

शास्त्रीय सांख्यिकी में, अनुमान के लिए इन शर्तों की आवश्यकता होती है। मशीन लर्निंग में, भविष्यवाणी पर ध्यान केंद्रित किया जाता है, इसलिए ये धारणाएँ कम केंद्रीय हैं, लेकिन अंतर्निहित मुद्दे अभी भी मौजूद हैं।

यहां, हम दो विशेषताओं के संरेख होने का उदाहरण देखेंगे, और आइए उन्हें पूरी तरह से समान बनाते हैं।

और हमारा संबंध है: y = x1 + x2, और x1 = x2

मैं जानता हूं कि यदि वे पूरी तरह से बराबर हैं, तो हम बस इतना कर सकते हैं: y=2*x1। लेकिन कहने का तात्पर्य यह है कि वे बहुत समान हो सकते हैं, और हम हमेशा उनका उपयोग करके एक मॉडल बना सकते हैं, है ना?

तो फिर समस्या क्या है?

जब विशेषताएँ पूर्णतया संरेख होती हैं, तो समाधान अद्वितीय नहीं होता है। यहां नीचे स्क्रीनशॉट में एक उदाहरण दिया गया है.

y = 10000*x1 – 9998*x2

image 186
एक्सेल में रिज और लासो – सभी चित्र लेखक द्वारा

और हम देख सकते हैं कि गुणांकों का मान बहुत बड़ा है।

तो, विचार गुणांक के मानदंड को सीमित करने का है।

और नियमितीकरण लागू करने के बाद, वैचारिक मॉडल वही है!

यह सही है। रेखीय प्रतिगमन के पैरामीटर बदल दिए गए हैं। लेकिन मॉडल वही है.

नियमितीकरण के विभिन्न संस्करण

तो विचार एमएसई और गुणांक के मानदंड को संयोजित करने का है।

केवल एमएसई को न्यूनतम करने के बजाय, हम दो शब्दों के योग को कम करने का प्रयास करते हैं।

कौन सा मानदंड? हम मानक L1, L2 के साथ काम कर सकते हैं या उन्हें जोड़ भी सकते हैं।

ऐसा करने के तीन शास्त्रीय तरीके और संबंधित मॉडल नाम हैं।

रिज रिग्रेशन (L2 पेनल्टी)

रिज रिग्रेशन पर जुर्माना जोड़ा जाता है वर्ग मान गुणांकों का.

सहज रूप से:

  • बड़े गुणांकों पर भारी जुर्माना लगाया जाता है (वर्ग के कारण)
  • गुणांक शून्य की ओर धकेल दिए जाते हैं
  • लेकिन वे कभी भी पूर्णतः शून्य नहीं होते

प्रभाव:

  • सभी सुविधाएँ मॉडल में बनी रहती हैं
  • गुणांक चिकने और अधिक स्थिर होते हैं
  • संरेखता के विरुद्ध बहुत प्रभावी

चोटी सिकुड़तालेकिन चयन नहीं करता.

image 194
एक्सेल में रिज रिग्रेशन – सभी चित्र लेखक द्वारा

लैस्सो प्रतिगमन (L1 दंड)

लैस्सो एक अलग दंड का उपयोग करता है: द निरपेक्ष मूल्य गुणांकों का.

इस छोटे से परिवर्तन का बड़ा परिणाम होता है।

लैस्सो के साथ:

  • कुछ गुणांक बन सकते हैं बिल्कुल शून्य
  • मॉडल स्वचालित रूप से कुछ सुविधाओं को अनदेखा कर देता है

इसीलिए इसे LASSO कहा जाता है, क्योंकि इसका मतलब है न्यूनतम निरपेक्ष संकोचन और चयन संचालक.

  • संचालिका: यह हानि फ़ंक्शन में जोड़े गए नियमितीकरण ऑपरेटर को संदर्भित करता है
  • कम से कम: यह न्यूनतम-वर्ग प्रतिगमन ढांचे से लिया गया है
  • निरपेक्ष: यह गुणांकों के निरपेक्ष मान (L1 मानदंड) का उपयोग करता है
  • संकुचन: यह गुणांकों को शून्य की ओर सिकोड़ देता है
  • चयन: यह फीचर चयन करते हुए कुछ गुणांकों को बिल्कुल शून्य पर सेट कर सकता है

महत्वपूर्ण बारीकियाँ:

  • हम कह सकते हैं कि मॉडल में अभी भी गुणांकों की संख्या समान है
  • लेकिन उनमें से कुछ को प्रशिक्षण के दौरान शून्य करने के लिए मजबूर किया जाता है

मॉडल का स्वरूप अपरिवर्तित है, लेकिन लैस्सो गुणांकों को शून्य पर लाकर सुविधाओं को प्रभावी ढंग से हटा देता है।

image 193
एक्सेल में लैस्सो – सभी चित्र लेखक द्वारा

3. इलास्टिक नेट (L1 + L2)

इलास्टिक नेट एक है संयोजन रिज और लास्सो का।

यह उपयोगकर्ता है:

  • L1 जुर्माना (लैस्सो की तरह)
  • और एक L2 जुर्माना (रिज की तरह)

उन्हें क्यों संयोजित करें?

क्योंकि:

  • जब सुविधाएँ अत्यधिक सहसंबद्ध होती हैं तो लैस्सो अस्थिर हो सकता है
  • रिज संरेखता को अच्छी तरह से संभालता है लेकिन सुविधाओं का चयन नहीं करता है

इलास्टिक नेट इनके बीच संतुलन देता है:

  • स्थिरता
  • संकुचन
  • विरलता

वास्तविक डेटासेट में यह अक्सर सबसे व्यावहारिक विकल्प होता है।

वास्तव में क्या बदलता है: मॉडल, प्रशिक्षण, ट्यूनिंग

आइए इसे मशीन लर्निंग के दृष्टिकोण से देखें।

मॉडल वास्तव में नहीं बदलता है

के लिए नमूनासभी नियमित संस्करणों के लिए, हम अभी भी लिखते हैं:

y =ax + b.

  • गुणांकों की समान संख्या
  • वही भविष्यवाणी सूत्र
  • लेकिन, गुणांक भिन्न होंगे.

एक निश्चित दृष्टिकोण से, रिज, लासो और इलास्टिक नेट हैं अलग-अलग मॉडल नहीं.

प्रशिक्षण सिद्धांत भी वही है

हम अभी भी:

  • हानि फ़ंक्शन को परिभाषित करें
  • इसे कम से कम करें
  • ग्रेडियेंट की गणना करें
  • अद्यतन गुणांक

फर्क सिर्फ इतना है:

  • हानि फ़ंक्शन में अब दंड अवधि शामिल है

यही वह है।

हाइपरपैरामीटर जोड़े गए हैं (यह वास्तविक अंतर है)

रैखिक प्रतिगमन के लिए, हमारे पास मॉडल की “जटिलता” का नियंत्रण नहीं है।

  • मानक रैखिक प्रतिगमन: कोई हाइपरपैरामीटर नहीं
  • रिज: एक हाइपरपैरामीटर (लैम्ब्डा)
  • कमंद: एक हाइपरपैरामीटर (लैम्ब्डा)
  • इलास्टिक नेट: दो हाइपरपैरामीटर
    • समग्र नियमितीकरण शक्ति के लिए एक
    • L1 बनाम L2 को संतुलित करने के लिए एक

इसलिए:

  • मानक रैखिक प्रतिगमन को ट्यूनिंग की आवश्यकता नहीं है
  • दंडित प्रतिगमन करते हैं

यही कारण है कि मानक रैखिक प्रतिगमन को अक्सर “वास्तव में मशीन लर्निंग नहीं” के रूप में देखा जाता है, जबकि नियमित संस्करण स्पष्ट रूप से होते हैं।

नियमित ग्रेडिएंट्स का कार्यान्वयन

हम ओएलएस रिग्रेशन के ग्रेडिएंट डिसेंट को संदर्भ के रूप में रखते हैं, और रिज रिग्रेशन के लिए, हमें केवल गुणांक के लिए नियमितीकरण शब्द जोड़ना होगा।

हम एक सरल डेटासेट का उपयोग करेंगे जो मैंने तैयार किया था (वही जिसे हम पहले से ही रैखिक प्रतिगमन के लिए उपयोग कर चुके हैं)।

हम देख सकते हैं कि 3 “मॉडल” गुणांक के संदर्भ में भिन्न हैं। और इस अध्याय का लक्ष्य सभी मॉडलों के लिए ग्रेडिएंट लागू करना और उनकी तुलना करना है।

image 196
एक्सेल में रिज लैस्सो रिग्रेशन – सभी चित्र लेखक द्वारा

दंडित ग्रेडिएंट के साथ रिज

सबसे पहले, हम रिज के लिए कर सकते हैं, और हमें केवल a का ग्रेडिएंट बदलना होगा।

अब, इसका मतलब यह नहीं है कि मान b नहीं बदला है, क्योंकि b का ग्रेडिएंट प्रत्येक चरण a पर भी निर्भर करता है।

image 195
एक्सेल में रिज लैस्सो रिग्रेशन – सभी चित्र लेखक द्वारा

दंडित ग्रेडिएंट के साथ LASSO

फिर हम LASSO के लिए भी ऐसा ही कर सकते हैं।

और एकमात्र अंतर ए के ग्रेडिएंट का भी है।

प्रत्येक मॉडल के लिए, हम एमएसई और नियमित एमएसई की गणना भी कर सकते हैं। यह देखना काफी संतोषजनक है कि पुनरावृत्तियों के दौरान वे कैसे कम होते जाते हैं।

image 197
एक्सेल में रिज लैस्सो रिग्रेशन – सभी चित्र लेखक द्वारा

गुणांकों की तुलना

अब, हम तीनों मॉडलों के लिए गुणांक a की कल्पना कर सकते हैं। अंतर देखने के लिए, हम बहुत बड़े लैम्ब्डा इनपुट करते हैं।

image 198
एक्सेल में रिज लैस्सो रिग्रेशन – सभी चित्र लेखक द्वारा

लैम्ब्डा का प्रभाव

लैम्ब्डा के बड़े मूल्य के लिए, हम देखेंगे कि गुणांक छोटा हो जाता है।

और यदि लैम्ब्डा LASSO बहुत बड़ा हो जाता है, तो हमें सैद्धांतिक रूप से a के लिए 0 का मान मिलता है। संख्यात्मक रूप से, हमें ग्रेडिएंट डिसेंट में सुधार करना होगा।

image 199
एक्सेल में रिज लैस्सो रिग्रेशन – सभी चित्र लेखक द्वारा

नियमित लॉजिस्टिक रिग्रेशन?

हमने कल लॉजिस्टिक रिग्रेशन देखा, और एक सवाल जो हम पूछ सकते हैं वह यह है कि क्या इसे भी नियमित किया जा सकता है। यदि हां, तो उन्हें कैसे कहा जाता है?

इसका उत्तर निश्चित रूप से हां है, लॉजिस्टिक रिग्रेशन को नियमित किया जा सकता है

बिल्कुल यही विचार लागू होता है.

लॉजिस्टिक रिग्रेशन भी हो सकता है:

  • एल1 को दंडित किया गया
  • एल2 को दंडित किया गया
  • इलास्टिक नेट को दंडित किया गया

वहाँ हैं कोई विशेष नाम नहीं जैसे आम उपयोग में “रिज लॉजिस्टिक रिग्रेशन”।

क्यों?

क्योंकि यह अवधारणा अब नई नहीं रही.

व्यवहार में, स्किकिट-लर्न जैसी लाइब्रेरी आपको बस यह निर्दिष्ट करने देती है:

  • हानि समारोह
  • दंड का प्रकार
  • नियमितीकरण की ताकत

जब विचार नया था तो नामकरण मायने रखता था।
अब, नियमितीकरण सिर्फ एक मानक विकल्प है।

अन्य प्रश्न जो हम पूछ सकते हैं:

  • क्या नियमितीकरण हमेशा उपयोगी होता है?
  • सुविधाओं की स्केलिंग नियमित रैखिक प्रतिगमन के प्रदर्शन को कैसे प्रभावित करती है?

निष्कर्ष

रिज और लैस्सो रैखिक मॉडल को ही नहीं बदलते हैं, वे गुणांक सीखने के तरीके को बदलते हैं। जुर्माना जोड़कर, नियमितीकरण स्थिर और सार्थक समाधानों का पक्ष लेता है, खासकर जब सुविधाएँ सहसंबद्ध होती हैं। इस प्रक्रिया को एक्सेल में चरण दर चरण देखने से यह स्पष्ट हो जाता है कि ये विधियाँ अधिक जटिल नहीं हैं, बस अधिक नियंत्रित हैं।

(टैग्सटूट्रांसलेट)आर्टिफिशियल इंटेलिजेंस(टी)डेटा साइंस(टी)मशीन लर्निंग
Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *