AI एजंट्स प्रायोगिक प्रोटोटाइपपासून वास्तविक जगातील अनुप्रयोगांमध्ये जात असताना, त्यांच्या वर्तनाची समज, कार्यप्रदर्शनाचे निरीक्षण आणि त्यांच्या आउटपुटचे पद्धतशीर मूल्यमापन करण्याची क्षमता महत्त्वाची ठरते.
ही धडा पूर्ण केल्यानंतर, तुम्हाला खालील गोष्टींची माहिती असेल:
उद्दिष्ट म्हणजे तुमच्या “ब्लॅक बॉक्स” एजंट्सना पारदर्शक, व्यवस्थापनीय आणि विश्वासार्ह प्रणालींमध्ये रूपांतरित करण्यासाठी आवश्यक ज्ञान प्रदान करणे.
टीप: सुरक्षित आणि विश्वासार्ह AI एजंट्स तैनात करणे महत्त्वाचे आहे. विश्वासार्ह AI एजंट्स तयार करणे या धड्याची तपासणी करा.
Langfuse किंवा Azure AI Foundry सारखी निरीक्षणक्षमता साधने सामान्यतः एजंट रनला ट्रेस आणि स्पॅन म्हणून दर्शवतात.
निरीक्षणक्षमता नसल्यास, AI एजंट “ब्लॅक बॉक्स” सारखा वाटतो - त्याची अंतर्गत स्थिती आणि विचार प्रक्रिया अस्पष्ट असते, ज्यामुळे समस्या निदान करणे किंवा कार्यप्रदर्शन ऑप्टिमाइझ करणे कठीण होते. निरीक्षणक्षमता असताना, एजंट्स “ग्लास बॉक्स” बनतात, पारदर्शकता प्रदान करतात जी विश्वास निर्माण करण्यासाठी आणि ते अपेक्षेप्रमाणे कार्य करत असल्याची खात्री करण्यासाठी महत्त्वाची आहे.
AI एजंट्सना उत्पादन वातावरणात तैनात करताना नवीन आव्हाने आणि आवश्यकता समोर येतात. निरीक्षणक्षमता आता “छान आहे” अशी गोष्ट राहिली नाही, तर ती एक महत्त्वाची क्षमता बनली आहे:
एजंट वर्तनाचे निरीक्षण आणि समजण्यासाठी, विविध मेट्रिक्स आणि सिग्नल्स ट्रॅक केले पाहिजेत. एजंटच्या उद्देशानुसार विशिष्ट मेट्रिक्स बदलू शकतात, परंतु काही सार्वत्रिक महत्त्वाचे आहेत.
निरीक्षणक्षमता साधने सामान्यतः ट्रॅक करतात अशा सर्वात सामान्य मेट्रिक्स येथे आहेत:
लेटन्सी: एजंट किती वेगाने प्रतिसाद देतो? दीर्घ प्रतीक्षा वेळा वापरकर्ता अनुभवावर नकारात्मक परिणाम करतात. एजंट रन ट्रेस करून कार्ये आणि वैयक्तिक पायऱ्यांसाठी लेटन्सी मोजली पाहिजे. उदाहरणार्थ, जर एखादा एजंट सर्व मॉडेल कॉल्ससाठी 20 सेकंद घेत असेल, तर वेगवान मॉडेल वापरून किंवा मॉडेल कॉल्स समांतर चालवून त्याला गती दिली जाऊ शकते.
खर्च: प्रति एजंट रन खर्च किती आहे? AI एजंट्स LLM कॉल्सवर अवलंबून असतात जे प्रति टोकन किंवा बाह्य APIs वर बिल केले जातात. वारंवार टूल वापर किंवा अनेक प्रॉम्प्ट्स जलदपणे खर्च वाढवू शकतात. उदाहरणार्थ, जर एखादा एजंट LLM पाच वेळा कॉल करत असेल आणि गुणवत्ता सुधारणा मर्यादित असेल, तर तुम्हाला खर्च योग्य आहे का याचे मूल्यांकन करावे लागेल किंवा कॉल्सची संख्या कमी करावी लागेल किंवा स्वस्त मॉडेल वापरावे लागेल. रिअल-टाइम मॉनिटरिंग अनपेक्षित स्पाइक्स ओळखण्यात देखील मदत करू शकते (उदा. अत्यधिक API लूप्स निर्माण करणाऱ्या बग्स).
रिक्वेस्ट एरर्स: एजंटने किती रिक्वेस्ट्स अयशस्वी केल्या? यात API एरर्स किंवा अयशस्वी टूल कॉल्स समाविष्ट असू शकतात. उत्पादनात एजंट अधिक मजबूत बनवण्यासाठी, तुम्ही फॉलबॅक्स किंवा रिट्राय सेट करू शकता. उदा. जर LLM प्रदाता A डाउन असेल, तर तुम्ही बॅकअप म्हणून LLM प्रदाता B वर स्विच करू शकता.
वापरकर्ता अभिप्राय: थेट वापरकर्ता मूल्यमापन अंमलात आणल्याने मौल्यवान अंतर्दृष्टी मिळते. यात स्पष्ट रेटिंग्स (👍थंब्स-अप/👎डाउन, ⭐1-5 स्टार्स) किंवा मजकूर टिप्पण्या समाविष्ट असू शकतात. सातत्याने नकारात्मक अभिप्राय तुम्हाला सतर्क करायला हवा कारण हे एजंट अपेक्षेप्रमाणे कार्य करत नाही याचे लक्षण आहे.
अप्रत्यक्ष वापरकर्ता अभिप्राय: वापरकर्त्याचे वर्तन स्पष्ट रेटिंग्सशिवाय अप्रत्यक्ष अभिप्राय प्रदान करते. यात त्वरित प्रश्न पुन्हा मांडणे, पुनरावृत्ती क्वेरी किंवा रिट्राय बटण क्लिक करणे समाविष्ट असू शकते. उदा. जर तुम्हाला दिसले की वापरकर्ते वारंवार समान प्रश्न विचारत आहेत, तर हे एजंट अपेक्षेप्रमाणे कार्य करत नाही याचे लक्षण आहे.
अचूकता: एजंट किती वेळा योग्य किंवा इच्छित आउटपुट तयार करतो? अचूकतेच्या व्याख्या बदलतात (उदा. समस्या सोडवण्याची अचूकता, माहिती पुनर्प्राप्ती अचूकता, वापरकर्ता समाधान). तुमच्या एजंटसाठी यश कसे दिसते हे परिभाषित करणे हे पहिले पाऊल आहे. तुम्ही स्वयंचलित तपासण्या, मूल्यमापन स्कोर्स किंवा कार्य पूर्णता लेबल्सद्वारे अचूकता ट्रॅक करू शकता. उदाहरणार्थ, ट्रेस “यशस्वी” किंवा “अयशस्वी” म्हणून चिन्हांकित करणे.
स्वयंचलित मूल्यमापन मेट्रिक्स: तुम्ही स्वयंचलित मूल्यमापन सेट करू शकता. उदाहरणार्थ, तुम्ही एजंटच्या आउटपुटला स्कोअर देण्यासाठी LLM वापरू शकता उदा. ते उपयुक्त, अचूक आहे किंवा नाही. एजंटच्या विविध पैलूंना स्कोअर देण्यासाठी अनेक ओपन सोर्स लायब्ररी देखील आहेत. उदा. RAG एजंट्ससाठी RAGAS किंवा हानिकारक भाषा किंवा प्रॉम्प्ट इंजेक्शन शोधण्यासाठी LLM Guard.
प्रत्यक्षात, या मेट्रिक्सच्या संयोजनामुळे AI एजंटच्या आरोग्याचे सर्वोत्तम कव्हरेज मिळते. या धड्याच्या उदाहरण नोटबुक मध्ये, आम्ही तुम्हाला वास्तविक उदाहरणांमध्ये हे मेट्रिक्स कसे दिसतात ते दाखवू, पण आधी आपण सामान्य मूल्यमापन कार्यप्रवाह कसा दिसतो ते शिकू.
ट्रेसिंग डेटा गोळा करण्यासाठी, तुम्हाला तुमच्या कोडचे उपकरण करणे आवश्यक आहे. उद्दिष्ट म्हणजे एजंट कोडचे उपकरण करणे जेणेकरून ट्रेस आणि मेट्रिक्स उत्सर्जित होऊ शकतील, जे निरीक्षणक्षमता प्लॅटफॉर्मद्वारे कॅप्चर, प्रक्रिया आणि व्हिज्युअलाइझ केले जाऊ शकतील.
ओपनटेलिमेट्री (OTel): ओपनटेलिमेट्री हे LLM निरीक्षणक्षतेसाठी उद्योग मानक म्हणून उदयास आले आहे. हे टेलिमेट्री डेटा तयार करण्यासाठी, गोळा करण्यासाठी आणि निर्यात करण्यासाठी API, SDKs आणि साधनांचा संच प्रदान करते.
अनेक उपकरण लायब्ररी आहेत ज्या विद्यमान एजंट फ्रेमवर्क्सला लपेटतात आणि ओपनटेलिमेट्री स्पॅनला निरीक्षणक्षमता साधनावर निर्यात करणे सोपे करतात. खाली OpenLit उपकरण लायब्ररी वापरून AutoGen एजंट उपकरण करण्याचे उदाहरण आहे:
import openlit
openlit.init(tracer = langfuse._otel_tracer, disable_batch = True)
या धड्याच्या उदाहरण नोटबुक मध्ये तुमच्या AutoGen एजंटचे उपकरण कसे करावे ते दाखवले जाईल.
मॅन्युअल स्पॅन निर्मिती: उपकरण लायब्ररी चांगली बेसलाइन प्रदान करतात, परंतु अनेकदा अधिक तपशीलवार किंवा सानुकूल माहिती आवश्यक असते. तुम्ही सानुकूल अनुप्रयोग लॉजिक जोडण्यासाठी मॅन्युअली स्पॅन तयार करू शकता. अधिक महत्त्वाचे म्हणजे, ते स्वयंचलित किंवा मॅन्युअली तयार केलेल्या स्पॅनला सानुकूल गुणधर्मांसह समृद्ध करू शकतात (टॅग्स किंवा मेटाडेटा म्हणून ओळखले जाते). या गुणधर्मांमध्ये व्यवसाय-विशिष्ट डेटा, मध्यवर्ती गणना किंवा डिबगिंग किंवा विश्लेषणासाठी उपयुक्त असलेला कोणताही संदर्भ समाविष्ट असू शकतो, जसे की user_id
, session_id
, किंवा model_version
.
Langfuse Python SDK वापरून ट्रेस आणि स्पॅन मॅन्युअली तयार करण्याचे उदाहरण:
from langfuse import get_client
langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()
निरीक्षणक्षमता आपल्याला मेट्रिक्स देते, परंतु मूल्यमापन म्हणजे त्या डेटाचे विश्लेषण करणे (आणि चाचण्या करणे) जेणेकरून AI एजंट किती चांगले कार्य करत आहे आणि तो कसा सुधारला जाऊ शकतो हे ठरवता येईल. दुसऱ्या शब्दांत, एकदा तुम्हाला ट्रेस आणि मेट्रिक्स मिळाल्यानंतर, एजंटचे न्यायनिवाडा कसा करायचा आणि निर्णय कसे घ्यायचे?
नियमित मूल्यमापन महत्त्वाचे आहे कारण AI एजंट्स अनेकदा अनिश्चित असतात आणि विकसित होऊ शकतात (अपडेट्स किंवा मॉडेल वर्तन बदलल्यामुळे) – मूल्यमापनाशिवाय, तुम्हाला कळणार नाही की तुमचा “स्मार्ट एजंट” खरोखर चांगले कार्य करत आहे की तो मागे गेला आहे.
AI एजंट्ससाठी दोन प्रकारचे मूल्यमापन आहेत: ऑनलाइन मूल्यमापन आणि ऑफलाइन मूल्यमापन. दोन्ही मौल्यवान आहेत आणि ते एकमेकांना पूरक आहेत. आम्ही सहसा ऑफलाइन मूल्यमापनाने सुरुवात करतो, कारण उत्पादनात कोणताही एजंट तैनात करण्यापूर्वी हे किमान आवश्यक पाऊल आहे.
हे नियंत्रित सेटिंगमध्ये एजंटचे मूल्यमापन करणे समाविष्ट करते, सामान्यतः चाचणी डेटासेट्स वापरून, थेट वापरकर्ता क्वेरी नाही. तुम्ही क्युरेटेड डेटासेट्स वापरता जिथे तुम्हाला अपेक्षित आउटपुट किंवा योग्य वर्तन माहित असते आणि नंतर तुमच्या एजंटला त्यावर चालवता.
उदाहरणार्थ, जर तुम्ही गणित वर्ड-प्रॉब्लेम एजंट तयार केला असेल, तर तुमच्याकडे 100 समस्यांचे चाचणी डेटासेट असू शकते ज्याचे उत्तर माहित आहे. ऑफलाइन मूल्यमापन सहसा विकासादरम्यान केले जाते (आणि CI/CD पाइपलाइन्सचा भाग असू शकते) सुधारणा तपासण्यासाठी किंवा मागे जाण्यापासून संरक्षण करण्यासाठी. फायदा म्हणजे ते पुनरावृत्ती करण्यायोग्य आहे आणि तुम्हाला स्पष्ट अचूकता मेट्रिक्स मिळू शकतात कारण तुमच्याकडे ग्राउंड ट्रुथ आहे. तुम्ही वापरकर्ता क्वेरीचे अनुकरण करू शकता आणि एजंटच्या प्रतिसादांची आदर्श उत्तरांशी तुलना करू शकता किंवा वरील वर्णन केलेल्या स्वयंचलित मेट्रिक्स वापरू शकता.
ऑफलाइन मूल्यमापनातील मुख्य आव्हान म्हणजे तुमचा चाचणी डेटासेट सर्वसमावेशक आणि संबंधित राहील याची खात्री करणे – एजंट निश्चित चाचणी सेटवर चांगले कार्य करू शकतो परंतु उत्पादनात खूप वेगळ्या क्वेरींचा सामना करू शकतो. म्हणून, तुम्ही नवीन एज केस आणि वास्तविक जगातील परिस्थिती प्रतिबिंबित करणारे उदाहरणांसह चाचणी सेट्स अद्यतनित ठेवले पाहिजेत. लहान “स्मोक टेस्ट” प्रकरणे आणि मोठ्या मूल्यमापन सेट्सचा मिश्रण उपयुक्त आहे: जलद तपासणीसाठी लहान सेट्स आणि व्यापक कार्यप्रदर्शन मेट्रिक्ससाठी मोठे सेट्स.
हे थेट, वास्तविक जगातील वातावरणात एजंटचे मूल्यमापन करण्यास संदर्भित करते, म्हणजेच उत्पादनात वास्तविक वापरादरम्यान. ऑनलाइन मूल्यमापनामध्ये एजंटच्या कार्यप्रदर्शनाचे थेट वापरकर्ता संवादांवर सतत निरीक्षण करणे आणि परिणामांचे विश्लेषण करणे समाविष्ट आहे.
उदाहरणार्थ, तुम्ही यश दर, वापरकर्ता समाधान स्कोर्स किंवा थेट ट्रॅफिकवरील इतर मेट्रिक्स ट्रॅक करू शकता. ऑनलाइन मूल्यमापनाचा फायदा म्हणजे ते लॅब सेटिंगमध्ये तुम्ही अपेक्षित नसलेल्या गोष्टी कॅप्चर करते – तुम्ही वेळोवेळी मॉडेल ड्रिफ्टचे निरीक्षण करू शकता (जर एजंटची प्रभावीता इनपुट पॅटर्न बदलल्यामुळे कमी झाली असेल) आणि तुमच्या चाचणी डेटामध्ये नसलेल्या अनपेक्षित क्वेरी किंवा परिस्थिती पकडू शकता. हे एजंट जंगली परिस्थितीत कसे वागते याचे खरे चित्र प्रदान करते.
ऑनलाइन मूल्यमापनामध्ये अप्रत्यक्ष आणि स्पष्ट वापरकर्ता अभिप्राय गोळा करणे समाविष्ट असते, जसे की चर्चा केले आहे, आणि कदाचित शॅडो चाचण्या किंवा A/B चाचण्या चालवणे (जिथे एजंटची नवीन आवृत्ती जुन्या
समस्या | उपाय |
---|---|
एजंट्सचे उत्तर अचूक नाहीत | - एजंट्ससाठी अधिक चांगले प्रशिक्षण डेटा तयार करा. - एजंट्सच्या कार्यक्षमतेचे मूल्यमापन करण्यासाठी चाचणी आणि पुनरावलोकन करा. |
एजंट्सचे कार्य वेळेवर होत नाही | - एजंट्सच्या कार्यप्रवाहाचे निरीक्षण करा. - एजंट्सच्या कार्यक्षमतेसाठी वेळेचे मर्यादित निकष ठरवा. |
जटिल कार्यांसाठी मॉडेल योग्य नाही | - जटिल कार्यांसाठी तर्कशक्तीवर आधारित मोठ्या मॉडेल्स वापरा. |
एआय एजंट टूल्स योग्य कार्य करत नाहीत | - एजंट प्रणालीच्या बाहेर टूल्सचे आउटपुट चाचणी करा आणि सत्यापित करा. - टूल्ससाठी परिभाषित केलेले निकष, प्रॉम्प्ट्स आणि नावांमध्ये सुधारणा करा. |
मल्टी-एजंट प्रणाली सातत्याने कार्य करत नाही | - प्रत्येक एजंटसाठी विशिष्ट आणि वेगळे प्रॉम्प्ट्स तयार करा. - “रूटिंग” किंवा नियंत्रक एजंट वापरून एक श्रेणीबद्ध प्रणाली तयार करा, जे योग्य एजंट ठरवेल. |
या समस्यांपैकी अनेक समस्यांचे निदान निरीक्षण प्रणालीद्वारे अधिक प्रभावीपणे करता येते. आपण पूर्वी चर्चा केलेल्या ट्रेस आणि मेट्रिक्स एजंट कार्यप्रवाहातील अडचणी नेमक्या कुठे आहेत हे ओळखण्यास मदत करतात, ज्यामुळे डीबगिंग आणि ऑप्टिमायझेशन अधिक कार्यक्षम होते.
उत्पादनात एआय एजंट्स तैनात करताना खर्च व्यवस्थापनासाठी काही रणनीती येथे दिल्या आहेत:
लहान मॉडेल्सचा वापर: काही एजंटिक उपयोगांसाठी लहान भाषा मॉडेल्स (SLMs) चांगले कार्य करू शकतात आणि खर्च मोठ्या प्रमाणात कमी करू शकतात. जसे की पूर्वी सांगितले होते, कार्यक्षमतेचे मूल्यमापन करण्यासाठी एक प्रणाली तयार करणे आणि मोठ्या मॉडेल्सशी तुलना करणे हे SLM तुमच्या उपयोगासाठी किती चांगले कार्य करेल हे समजून घेण्याचा सर्वोत्तम मार्ग आहे. सोप्या कार्यांसाठी जसे की हेतू वर्गीकरण किंवा पॅरामीटर एक्स्ट्रॅक्शनसाठी SLM वापरण्याचा विचार करा, तर जटिल तर्कशक्तीसाठी मोठ्या मॉडेल्स राखून ठेवा.
राउटर मॉडेलचा वापर: यासारखीच एक रणनीती म्हणजे विविध मॉडेल्स आणि आकारांचा वापर करणे. तुम्ही LLM/SLM किंवा सर्व्हरलेस फंक्शन वापरून विनंत्या त्यांच्या जटिलतेनुसार योग्य मॉडेल्सकडे रूट करू शकता. यामुळे खर्च कमी होईल आणि योग्य कार्यांवर कार्यक्षमता सुनिश्चित होईल. उदाहरणार्थ, सोप्या क्वेरी लहान, जलद मॉडेल्सकडे रूट करा आणि जटिल तर्कशक्तीसाठी महागड्या मोठ्या मॉडेल्सचा वापर करा.
कॅशिंग प्रतिसाद: सामान्य विनंत्या आणि कार्य ओळखून एजंटिक प्रणालीत जाण्यापूर्वी प्रतिसाद प्रदान करणे हा समान विनंत्यांचा खंड कमी करण्याचा चांगला मार्ग आहे. तुम्ही अगदी मूलभूत एआय मॉडेल्स वापरून विनंती कॅश केलेल्या प्रतिसादांशी किती समान आहे हे ओळखण्यासाठी एक प्रवाह लागू करू शकता. वारंवार विचारल्या जाणाऱ्या प्रश्नांसाठी किंवा सामान्य कार्यप्रवाहांसाठी ही रणनीती खर्च मोठ्या प्रमाणात कमी करू शकते.
या विभागाच्या उदाहरण नोटबुकमध्ये, आपण निरीक्षण साधने वापरून एजंट्सचे निरीक्षण आणि मूल्यमापन कसे करता येते याचे उदाहरण पाहू.
Azure AI Foundry Discord मध्ये सामील व्हा, इतर शिकणाऱ्यांशी चर्चा करा, ऑफिस तासांमध्ये सहभागी व्हा आणि तुमचे एआय एजंट्ससंबंधित प्रश्न विचारून उत्तर मिळवा.
अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.