हम देव में अपने एजेंटों का परीक्षण कैसे कर रहे हैं

Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …

एजेंटों का परीक्षण इतना कठिन क्यों है?

एआई एजेंट का उम्मीद के मुताबिक प्रदर्शन करना आसान नहीं है। यहां तक ​​कि आपके त्वरित संस्करण, एजेंट ऑर्केस्ट्रेशन और मॉडल जैसे घटकों में छोटे बदलाव भी बड़े और अप्रत्याशित प्रभाव डाल सकते हैं।

कुछ शीर्ष चुनौतियों में शामिल हैं:

गैर-नियतात्मक आउटपुट

अंतर्निहित मुद्दा यह है कि एजेंट गैर-नियतात्मक हैं। एक ही इनपुट अंदर जाता है, दो अलग-अलग आउटपुट आ सकते हैं।

जब आप नहीं जानते कि अपेक्षित परिणाम क्या होगा तो आप अपेक्षित परिणाम का परीक्षण कैसे करते हैं? सीधे शब्दों में कहें तो कड़ाई से परिभाषित आउटपुट के लिए परीक्षण काम नहीं करता है।

असंरचित आउटपुट

एजेंटिक प्रणालियों के परीक्षण की दूसरी और कम चर्चा वाली चुनौती यह है कि आउटपुट अक्सर असंरचित होते हैं। एजेंटिक सिस्टम की नींव हैं बड़ी भाषा आख़िरकार मॉडल.

संरचित डेटा के लिए परीक्षण को परिभाषित करना बहुत आसान है। उदाहरण के लिए, आईडी फ़ील्ड कभी भी शून्य नहीं होनी चाहिए या हमेशा पूर्णांक होनी चाहिए। आप पाठ के एक बड़े क्षेत्र की गुणवत्ता को कैसे परिभाषित करते हैं?

लागत और पैमाना

एलएलएम-जज के रूप में एआई एजेंटों की गुणवत्ता या विश्वसनीयता के मूल्यांकन के लिए सबसे आम पद्धति है। हालाँकि, यह एक महंगा कार्यभार है और प्रत्येक उपयोगकर्ता इंटरैक्शन (ट्रेस) में सैकड़ों इंटरैक्शन (स्पैन) शामिल हो सकते हैं।

इसलिए हमने अपनी एजेंट परीक्षण रणनीति पर पुनर्विचार किया। इस पोस्ट में हम एक नई प्रमुख अवधारणा सहित अपनी सीख साझा करेंगे जो बड़े पैमाने पर विश्वसनीयता सुनिश्चित करने में महत्वपूर्ण साबित हुई है।

image 7
छवि लेखक के सौजन्य से

हमारे एजेंट का परीक्षण

हमारे पास उत्पादन में दो एजेंट हैं जिनका लाभ 30,000 से अधिक उपयोगकर्ता उठाते हैं। समस्या निवारण एजेंट डेटा विश्वसनीयता घटना का मूल कारण निर्धारित करने के लिए सैकड़ों संकेतों के माध्यम से काम करता है जबकि मॉनिटरिंग एजेंट स्मार्ट डेटा गुणवत्ता निगरानी सिफारिशें करता है।

समस्या निवारण एजेंट के लिए हम तीन मुख्य आयामों का परीक्षण करते हैं: सिमेंटिक दूरी, ग्राउंडेडनेस और टूल उपयोग। यहां बताया गया है कि हम प्रत्येक के लिए कैसे परीक्षण करते हैं।

शब्दार्थ दूरी

उपयुक्त होने पर हम नियतात्मक परीक्षणों का लाभ उठाते हैं क्योंकि वे स्पष्ट, समझाने योग्य और लागत प्रभावी होते हैं। उदाहरण के लिए, यह सुनिश्चित करने के लिए एक परीक्षण तैनात करना अपेक्षाकृत आसान है कि सबएजेंट का आउटपुट JSON प्रारूप में है, कि वे एक निश्चित लंबाई से अधिक नहीं हैं, या यह सुनिश्चित करने के लिए कि रेलिंग को इच्छित तरीके से बुलाया जा रहा है।

हालाँकि, ऐसे समय होते हैं जब नियतात्मक परीक्षणों से काम पूरा नहीं होता है। उदाहरण के लिए, हमने अपेक्षित और नए आउटपुट दोनों को वैक्टर और उपयोग के रूप में एम्बेड करने का पता लगाया कोसाइन समानता परीक्षण. हमने सोचा कि प्रेक्षित और अपेक्षित आउटपुट के बीच सिमेंटिक दूरी (मतलब समान है) का मूल्यांकन करने का यह एक सस्ता और तेज़ तरीका होगा।

हालाँकि, हमने पाया कि ऐसे बहुत से मामले थे जिनमें शब्द समान थे, लेकिन अर्थ अलग था।

इसके बजाय, अब हम अपने एलएलएम जज को वर्तमान कॉन्फ़िगरेशन से अपेक्षित आउटपुट प्रदान करते हैं और उसे 0-1 पैमाने पर स्कोर करने के लिए कहते हैं समानता नये आउटपुट का.

ज़मीनीपन

जमीनी स्तर के लिए, हम यह सुनिश्चित करने के लिए जांच करते हैं कि मुख्य संदर्भ उस समय मौजूद है जब उसे होना चाहिए, लेकिन यह भी कि जब मुख्य संदर्भ गायब हो या प्रश्न दायरे से बाहर हो तो एजेंट जवाब देने से इनकार कर देगा।

यह महत्वपूर्ण है क्योंकि एलएलएम खुश करने के लिए उत्सुक हैं और जब वे अच्छे संदर्भ पर आधारित नहीं होंगे तो भ्रम पैदा करेंगे।

उपकरण का उपयोग

टूल के उपयोग के लिए हमारे पास एलएलएम-ए-जज का मूल्यांकन है कि क्या एजेंट ने पूर्व-परिभाषित परिदृश्य के लिए अपेक्षित प्रदर्शन किया है:

  • किसी उपकरण की अपेक्षा नहीं थी और न ही कोई उपकरण बुलाया गया था
  • एक उपकरण अपेक्षित था और एक अनुमत उपकरण का उपयोग किया गया था
  • कोई भी आवश्यक उपकरण छोड़ा नहीं गया
  • किसी भी गैर-अनुमति उपकरण का उपयोग नहीं किया गया

असली जादू इन परीक्षणों को लागू करना नहीं है, बल्कि यह है कि इन परीक्षणों को कैसे लागू किया जाता है। यहां कुछ दर्दनाक परीक्षण और त्रुटि द्वारा सूचित हमारा वर्तमान सेटअप है।

एजेंट सर्वोत्तम प्रथाओं का परीक्षण कर रहा है

यह ध्यान रखना महत्वपूर्ण है कि न केवल आपके एजेंट गैर-नियतात्मक हैं, बल्कि आपके एलएलएम मूल्यांकन भी गैर-नियतात्मक हैं! ये सर्वोत्तम प्रथाएँ मुख्य रूप से उन अंतर्निहित कमियों से निपटने के लिए डिज़ाइन की गई हैं।

नरम विफलताएँ

स्पष्ट कारणों से गैर-नियतात्मक परीक्षणों के साथ कठोर सीमाएँ शोर वाली हो सकती हैं। इसलिए हमने “सॉफ्ट विफलता” की अवधारणा का आविष्कार किया।

मूल्यांकन 0-1 के बीच अंक के साथ वापस आता है। .5 से कम कुछ भी कठिन विफलता है, जबकि .8 से ऊपर कुछ भी पास नहीं है। .5 से .8 के बीच के स्कोर के लिए सॉफ्ट विफलताएँ होती हैं।

नरम विफलता के लिए परिवर्तनों को मर्ज किया जा सकता है। हालाँकि, यदि सॉफ्ट विफलताओं की एक निश्चित सीमा पार हो जाती है तो यह एक कठिन विफलता बन जाती है और प्रक्रिया रुक जाती है।

हमारे एजेंट के लिए, इसे वर्तमान में कॉन्फ़िगर किया गया है ताकि यदि 33% परीक्षणों का परिणाम सॉफ्ट विफलता हो या यदि कुल मिलाकर 2 से अधिक सॉफ्ट विफलताएं हों, तो इसे हार्ड विफलता माना जाता है। यह परिवर्तन को मर्ज होने से रोकता है।

नरम विफलताओं का पुनर्मूल्यांकन करें

कोयला खदान में नरम विफलताएँ एक कैनरी हो सकती हैं, या कुछ मामलों में वे बकवास हो सकती हैं। लगभग 10% सॉफ्ट विफलताएँ मतिभ्रम का परिणाम होती हैं। नरम विफलता की स्थिति में, मूल्यांकन स्वचालित रूप से फिर से चलेगा। यदि परिणामी परीक्षण पास हो जाते हैं तो हम मान लेते हैं कि मूल परिणाम गलत था।

स्पष्टीकरण

जब कोई परीक्षण विफल हो जाता है, तो आपको यह समझने की आवश्यकता है कि वह विफल क्यों हुआ। अब हम प्रत्येक एलएलएम जज से न केवल एक अंक प्रदान करने के लिए कहते हैं, बल्कि उसे समझाने के लिए भी कहते हैं। यह अपूर्ण है, लेकिन यह मूल्यांकन में विश्वास बनाने में मदद करता है और अक्सर डिबगिंग को गति देता है।

परतदार परीक्षण हटाना

आपको अपने परीक्षण का परीक्षण करना होगा. विशेष रूप से एलएलएम-ए-जज मूल्यांकन के साथ, जिस तरह से प्रॉम्प्ट बनाया जाता है उसका परिणामों पर बड़ा प्रभाव पड़ सकता है। हम कई बार परीक्षण चलाते हैं और यदि परिणामों में डेल्टा बहुत बड़ा है तो हम संकेत को संशोधित करेंगे या परतदार परीक्षण को हटा देंगे।

उत्पादन में निगरानी

एजेंट परीक्षण नया और चुनौतीपूर्ण है, लेकिन उत्पादन में एजेंट के व्यवहार और आउटपुट की निगरानी की तुलना में यह पार्क में टहलने जैसा है। इनपुट अधिक गड़बड़ हैं, बेसलाइन पर कोई अपेक्षित आउटपुट नहीं है, और सब कुछ बहुत बड़े पैमाने पर है।

यह कहने की ज़रूरत नहीं है कि दांव बहुत अधिक ऊंचे हैं! सिस्टम विश्वसनीयता की समस्याएँ शीघ्र ही व्यावसायिक समस्याएँ बन जाती हैं।

यह हमारा वर्तमान फोकस है। हम लाभ उठा रहे हैं एजेंट अवलोकनशीलता इन चुनौतियों से निपटने के लिए उपकरण और भविष्य की पोस्ट में नई सीख की रिपोर्ट देंगे।

समस्या निवारण एजेंट हमारे द्वारा अब तक भेजी गई सबसे प्रभावशाली सुविधाओं में से एक है। विश्वसनीय एजेंट विकसित करना एक करियर-परिभाषित यात्रा रही है और हम इसे आपके साथ साझा करने के लिए उत्साहित हैं।


माइकल सेगनर मोंटे कार्लो में एक उत्पाद रणनीतिकार और ओ’रेली रिपोर्ट के लेखक हैं, “अवलोकन के माध्यम से डेटा + एआई विश्वसनीयता बढ़ाना।” यह एलोर एरीली और एलिक पेल्टिनोविच के साथ सह-लिखित था।

(टैग्सटूट्रांसलेट)एआई एजेंट(टी)एआई इंजीनियरिंग(टी)एआई ऑब्जर्वेबिलिटी(टी)आर्टिफिशियल इंटेलिजेंस(टी)एलएलएम ऑब्जर्वेबिलिटी
Latest Technology, (लेटेस्ट टेक न्यूज़) Gadget (गैजेट्स) …

Source link

Leave a Reply

Your email address will not be published. Required fields are marked *