जसे AI एजंट्स प्रयोगात्मक प्रोटोटाइप्समधून प्रत्यक्ष जगातील अनुप्रयोगांकडे जात आहेत, तसे त्यांचे वर्तन समजून घेण्याची, त्यांच्या कामगिरीचे निरीक्षण करण्याची आणि त्यांच्या उत्पादनांचे प्रणालीबद्ध मूल्यमापन करण्याची क्षमता महत्त्वाची बनते.
ही धडा पूर्ण केल्यावर, तुम्हाला कसे करायचे/समजेल:
हे उद्दिष्ट तुम्हाला “ब्लॅक बॉक्स” एजंट्सला पारदर्शक, व्यवस्थापनीय आणि विश्वासार्ह प्रणालींमध्ये रूपांतरित करण्यासाठी ज्ञानाने सुसज्ज करणे आहे.
टीप: सुरक्षित आणि विश्वासार्ह AI एजंट तैनात करणे महत्त्वाचे आहे. यासाठी Building Trustworthy AI Agents धडा ही पहा.
निरीक्षण साधने जसे की Langfuse किंवा Microsoft Foundry सहसा एजंटच्या कामांची प्रतिनिधी म्हणून ट्रेसेस आणि स्पॅन्स वापरतात.
निरीक्षणाशिवाय, AI एजंट “ब्लॅक बॉक्स” सारखा वाटू शकतो - त्याची अंतर्गत स्थिती आणि तार्किक प्रक्रिया अस्पष्ट असतात, ज्यामुळे समस्या ओळखणे किंवा कामगिरी सुधारणे कठीण होते. निरीक्षणामुळे, एजंट “काचेचे बॉक्स” म्हणून काम करतात, जे पारदर्शकता प्रदान करते आणि विश्वास निर्माण करण्यासाठी तसेच त्यांच्या योग्य कामांबद्दल खात्री करण्यासाठी अत्यंत गरजेचे आहे.
AI एजंट्सना उत्पादन वातावरणात स्थानांतरीत करताना विविध आव्हाने आणि गरजा उद्भवतात. निरीक्षण फक्त “आच्छादनासाठी चांगले” नसून एक महत्त्वाचा कौशल्य बनते:
एजंटच्या वर्तनाचे निरीक्षण आणि समजण्यासाठी विविध मेट्रिक्स आणि सिग्नल्स ट्रॅक करणे आवश्यक आहे. एजंटच्या उद्दीष्टानुसार विशिष्ट मेट्रिक्स वेगवेगळे असू शकतात, परंतु काही सार्वत्रिक महत्त्वाचे आहेत.
इथे निरीक्षण साधने ज्या सामान्य मेट्रिक्सवर लक्ष ठेवतात त्यातील काही:
विलंब: एजंट किती वेगाने प्रतिसाद देतो? दीर्घ प्रतीक्षा वेळा वापरकर्ता अनुभवावर नकारात्मक परिणाम करतात. तुम्ही एजंट रन ट्रेसिंग करून कामे आणि वैयक्तिक टप्प्यांसाठी विलंब मोजावा. उदाहरणार्थ, जर एक एजंट सर्व मॉडेल कॉलसाठी २० सेकंद घेत असेल, तर वेगवान मॉडेल वापरून किंवा मॉडेल कॉल्स समानांतर चालवून जलद कामगिरी करता येऊ शकते.
खर्च: एका एजंट रनचा खर्च किती? AI एजंट्स LLM कॉलवर आधारित असतात ज्यांची बिलिंग टोकन किंवा बाह्य API वापराप्रमाणे होते. वारंवार टूल वापर किंवा अनेक प्रॉम्प्ट्स खर्च वाढवू शकतात. उदाहरणार्थ, जर एखादा एजंट गुणवत्ता सुधारण्यासाठी LLM ला पाच वेळा कॉल करत असेल, तर तुम्ही त्या खर्चाचे मूल्यांकन करावे किंवा कॉलची संख्या कमी करावी किंवा स्वस्त मॉडेल वापरावे. वास्तविक वेळेतील निरीक्षण अनपेक्षित झेप ओळखण्यात मदत करू शकते (उदा. बग्समुळे API लूप्सला अधिक वेळ लागू झालेला).
रेक्वेस्ट एरर्स: एजंटने किती विनंत्या अयशस्वी केल्या? यामध्ये API त्रुटी किंवा अयशस्वी टूल कॉल्स असू शकतात. उत्पादनात एजंट अधिक मजबूत बनवण्यासाठी तुम्ही फॉलबॅक किंवा पुनर्प्रयत्न सेट करू शकता. उदा. जर LLM प्रोव्हायडर A डाउन असेल, तर बॅकअप म्हणून LLM प्रोव्हायडर B कडे बदला.
वापरकर्त्यांचा अभिप्राय: थेट वापरकर्ता मूल्यमापन अमूल्य अंतर्दृष्टी देतात. यामध्ये स्पष्ट रेटिंग्ज (👍थंब्स-अप/👎थंब्स-डाउन, ⭐1-5 तारे) किंवा मजकूर-based टिप्पण्या असू शकतात. सातत्यमान नकारात्मक अभिप्राय म्हणजे एजंट अपेक्षेप्रमाणे काम करत नाही हे निदर्शक आहे.
अप्रत्यक्ष वापरकर्ता अभिप्राय: वापरकर्त्यांचे वर्तन स्पष्ट रेटिंग्जशिवायही अप्रत्यक्ष अभिप्राय देते. यात त्वरित प्रश्न पुन्हा विचारणे, क्वेरी पुनरावृत्ती करणे किंवा पुनर्प्रयत्न बटणावर क्लिक करणे समाविष्ट आहे. उदा. वापरकर्ते वारंवार तेच प्रश्न विचारत असल्यास, ते एजंटच्या अपेक्षेप्रमाणे कार्य न करण्याचे सूचक आहे.
अचूकता: एजंट किती वेळा योग्य किंवा अपेक्षित उत्तर देते? अचूकतेची व्याख्या वेगवेगळी असते (उदा. समस्या सोडवण्याची अचूकता, माहिती पुनर्प्राप्तीची अचूकता, वापरकर्ता समाधान). पहिला टप्पा म्हणजे एजंटसाठी यश काय दिसते हे ठरवणे. तुम्ही स्वयंचलित तपास, मूल्यमापन गुण किंवा टास्क पूर्ण झाले याच्या लेबल्सद्वारे अचूकता ट्रॅक करू शकता. उदा., ट्रेसेस “यशस्वी” किंवा “अयशस्वी” म्हणून मार्क करणे.
स्वयंचलित मूल्यमापन मेट्रिक्स: तुम्ही स्वयंचलित मूल्यमापन देखील सेट करू शकता. उदाहरणार्थ, तुम्ही LLM वापरून एजंटच्या उत्पादनाला गुण देऊ शकता की ते उपयुक्त, अचूक आहे की नाही. काही मुक्त स्रोत लायब्ररी आहेत ज्या एजंटच्या विविध पैलूंना गुणांक देण्यास मदत करतात. उदा. RAGAS RAG एजंटसाठी किंवा LLM Guard हानिकारक भाषा किंवा प्रॉम्प्ट इंजेक्शन शोधण्यासाठी.
वास्तविक वापरात, या मेट्रिक्सच्या संयोजनामुळे AI एजंटच्या अवस्था आणि कामगिरीचे उत्तम कव्हरेज मिळते. या प्रकरणातील उदाहरण नोटबुक मध्ये आम्ही तुम्हाला मेट्रिक्स वास्तविक उदाहरणांमध्ये कसे दिसतात ते दाखवू, परंतु प्रथम आम्ही शेपटीचे मूल्यमापन कसे करतात ते शिकू.
ट्रेसिंग डेटा गोळा करण्यासाठी, तुम्हाला तुमचा कोड साधनसामग्री करावा लागेल. उद्दिष्ट म्हणजे एजंट कोडमध्ये असे साधनसामग्री करणे ज्यामुळे ट्रेसेस आणि मेट्रिक्स निर्माण होतील, ज्याची पकड, प्रक्रिया आणि दृश्यात्मकता निरीक्षण प्लॅटफॉर्म करता येईल.
OpenTelemetry (OTel): OpenTelemetry LLM निरीक्षणासाठी उद्योग मानक म्हणून उदयास आले आहे. ते टेलीमेट्री डेटा तयार करण्यासाठी, गोळा करण्यासाठी आणि निर्यात करण्यासाठी API, SDK आणि साधने पुरवते.
अनेक साधनसामग्री लायब्ररीज उपलब्ध आहेत ज्या विद्यमान एजंट फ्रेमवर्क्सला वेढून OpenTelemetry स्पॅन्स सहज निर्यात करण्यास मदत करतात. Microsoft Agent Framework OpenTelemetry सह नैसर्गिकरीत्या एकत्रित आहे. खाली MAF एजंट साधनसामग्री करण्याचे उदाहरण दिले आहे:
from agent_framework.observability import get_tracer, get_meter
tracer = get_tracer()
meter = get_meter()
with tracer.start_as_current_span("agent_run"):
# एजेंटची अंमलबजावणी आपोआप ट्रेस केली जाते
pass
या प्रकरणातील उदाहरण नोटबुक मध्ये तुम्हाला MAF एजंट कसे साधनसामग्री करायचे ते दाखवले जाईल.
मॅन्युअल स्पॅन निर्माण: साधनसामग्री लायब्ररी चांगले बेसलाइन पुरवतात, परंतु अनेक वेळा अधिक विस्तृत किंवा सानुकूल माहितीची गरज असते. तुम्ही सानुकूल अॅप्लिकेशन लॉजिक जोडण्यासाठी स्वतः स्पॅन्स तयार करू शकता. सर्वात महत्त्वाचे म्हणजे, ते आपोआप किंवा मॅन्युअली तयार केलेल्या स्पॅन्सना सानुकूल गुणधर्मांनी (टॅग किंवा मेटाडेटा म्हणतात) समृद्ध करू शकतात. हे गुणधर्म व्यावसायिक डेटा, मधली गणना किंवा डिबगिंग किंवा विश्लेषणासाठी उपयुक्त असलेला कोणताही संदर्भ असू शकतो, उदा. user_id, session_id, किंवा model_version.
Langfuse Python SDK चा वापर करून ट्रेसेस आणि स्पॅन्स मॅन्युअली तयार करण्याचे उदाहरण:
from langfuse import get_client
langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()
निरीक्षण आपल्याला मेट्रिक्स देते, परंतु मूल्यमापन हे त्या डेटाचे विश्लेषण करण्याची प्रक्रिया आहे (आणि चाचण्या घेणे) ज्याद्वारे AI एजंटची कामगिरी कशी आहे आणि ती कशी सुधारली जाऊ शकते हे ठरवले जाते. म्हणजे, एकदा तुम्हाला त्याच ट्रेसेस आणि मेट्रिक्स मिळाले की, तुम्ही त्यांचा वापर एजंटचे मूल्यांकन करण्यासाठी आणि निर्णय घेण्यासाठी कसा कराल?
नियमित मूल्यमापन महत्त्वाचे आहे कारण AI एजंट्स अनेकदा अनियत (non-deterministic) असतात आणि ते विकसित होऊ शकतात (अपडेट्स किंवा मॉडेल वर्तनातील विस्थापनांमुळे) – मूल्यमापनाशिवाय तुम्हाला कळणार नाही की तुमचा “स्मार्ट एजंट” खरोखरच त्याचे काम व्यवस्थित करत आहे की नाही किंवा ते खाली गेले आहे.
AI एजंट्ससाठी दोन प्रकारचे मूल्यमापन असतात: ऑनलाइन मूल्यमापन आणि ऑफलाइन मूल्यमापन. दोन्ही उपयुक्त आहेत आणि एकमेकांना पूरक आहेत. आम्ही सहसा ऑफलाइन मूल्यमापनाने सुरुवात करतो, कारण हे कोणताही एजंट तैनात करण्यापूर्वी किमान आवश्यक टप्पा आहे.

यामध्ये एजंटचे मूल्यमापन नियंत्रित वातावरणात केले जाते, सामान्यतः चाचणी डेटासेट्स वापरून, थेट वापरकर्ता क्वेरीशिवाय. तुम्ही यंत्रित डेटासेट्स वापरता जिथे तुम्हाला अपेक्षित उत्पादन किंवा योग्य वर्तन माहित असते आणि त्यावर तुमचा एजंट चालवता.
उदाहरणार्थ, जर तुम्ही गणिताच्या शब्दसमस्या सोडवणारा एजंट तयार केला असेल, तर तुमच्याकडे चाचणी डेटासेट असेल ज्यात १०० प्रश्न आहेत ज्यांची उत्तरे ठरलेली आहेत. ऑफलाइन मूल्यमापन विकासादरम्यान केले जाते (आणि CI/CD पाइपलाइनचा भाग होऊ शकते) सुधारणा तपासण्यासाठी किंवा कमीपणा नियंत्रणासाठी. त्याचा फायदा म्हणजे ते पुन्हा पुन्हा करता येते आणि तुम्हाला स्पष्ट अचूकता मेट्रिक्स मिळतात कारण तुम्हाला खरे उत्तर माहित असते. तुम्ही युजर क्वेरीजचे अनुकरण करून एजंटच्या प्रतिसादांची तुलना आदर्श उत्तरांशी करू शकता किंवा वर सांगितल्याप्रमाणे स्वयंचलित मेट्रिक्स वापरू शकता.
ऑफलाइन मूल्यमापनात मुख्य आव्हान म्हणजे तुमचा चाचणी डेटासेट सर्वसमावेशक असणे आणि आवश्यक तेव्हा अद्ययावत ठेवणे – एजंट एका ठराविक चाचणी सेटवर चांगले काम करू शकतो पण उत्पादनात खूप वेगळ्या क्वेरीजला सामोरे जावे लागू शकते. म्हणून, तुम्ही नवीन वळणप्रश्न आणि वास्तविक संदर्भ दर्शवणाऱ्या उदाहरणांसह चाचणी संच अद्ययावत ठेवणे आवश्यक आहे. लहान “स्मोक टेस्ट” प्रकरणे आणि मोठे मूल्यमापन संच या दोहोंचा समावेश फायदेशीर आहे: लहान संच जलद तपासणीसाठी आणि मोठे विस्तृत कामगिरी मोजण्यासाठी.

याचा अर्थ एजंटचे मूल्यमापन प्रत्यक्ष वापरात, वास्तविक वातावरणात करणे म्हणजे उत्पादनात वापराच्या वेळी होते. ऑनलाइन मूल्यमापनात एजंटच्या प्रतिक्रियांचे सतत निरीक्षण आणि परिणांवर विश्लेषण केले जाते.
उदाहरणार्थ, तुम्ही यशस्वी दर, वापरकर्त्यांचे समाधान गुण किंवा इतर मेट्रिक्स लाइव्ह ट्राफिकवर ट्रॅक करू शकता. ऑनलाइन मूल्यमापनाचा फायदा म्हणजे ते प्रयोगशाळेतील सेटिंगमध्ये अपेक्षित नसलेल्या गोष्टी धरू शकते – तुम्ही मॉडेल विस्थापन (जर एजंटची कार्यक्षमता इनपुट पॅटर्न बदलल्यामुळे कमी होते) पाहू शकता आणि अनपेक्षित क्वेरीज किंवा परिस्थिति ओळखू शकता जो तुमच्या चाचणी डेटामध्ये नव्हता. हे एजंट कसे वागत आहे याचे खरं चित्र देते.
ऑनलाइन मूल्यमापन मध्ये अप्रत्यक्ष आणि स्पष्ट वापरकर्ता अभिप्राय गोळा करणे समाविष्ट आहे, तसेच शॅडो टेस्ट किंवा A/B टेस्ट्स चालवणे देखील (जिथे नवीन आवृत्ती आधीच्या विरूद्ध तुलना करण्यासाठी समांतर चालते). आव्हान म्हणजे लाइव्ह इंटरॅक्शन्ससाठी विश्वासार्ह लेबले किंवा स्कोर्स मिळवणे कठीण असू शकते – तुम्हाला वापरकर्ता अभिप्राय किंवा डाउनस्ट्रीम मेट्रिक्स (जसे वापरकर्त्याने निकालावर क्लिक केला का) यावर अवलंबून रहावे लागू शकते.
ऑनलाइन आणि ऑफलाइन मूल्यमापन परस्पर विरोधी नाहीत; ते परस्पर पूरक आहेत. ऑनलाइन निरीक्षणातून मिळालेल्या अंतर्दृष्टी (उदा. नवीन प्रकारच्या वापरकर्त्यांच्या क्वेरीज ज्यावर एजंट खराब कामगिरी करतो) वापरून तुम्ही ऑफलाइन चाचणी डेटासेट सुधारणे करू शकता. उलट, जे एजंट ऑफलाइन चाचण्या उत्तीर्ण करतात ते अधिक आत्मविश्वासाने उत्पादनात तैनात आणि ऑनलाइन निरीक्षण करता येतात.
बरेच संघ खालीलप्रमाणेच लूप स्वीकारतात:
ऑफलाइन मूल्यमापन -> तैनात करा -> ऑनलाइन निरीक्षण करा -> नवीन अयशस्वी प्रकरणे गोळा करा -> ऑफलाइन डेटासेट मध्ये जोडा -> एजंट सुधारणा करा -> पुनरावृत्ती करा.
जसे तुम्ही उत्पादनात AI एजंट्स तैनात करता, तुम्हाला अनेक आव्हानांचा सामना करावा लागू शकतो. येथे काही सामान्य समस्या आणि त्यांचे संभाव्य उपाय आहेत:
| समस्या | संभाव्य उपाय |
|---|---|
| AI एजंट सतत कामे नीट करत नाही | - AI एजंटला दिलेला प्रॉम्प्ट सुधारणा करा; उद्दिष्टे स्पष्ट करा. - कामे उपकार्यांमध्ये विभागणे आणि त्यांना अनेक एजंटांनी हाताळणे याचा विचार करा. |
| AI एजंट सतत फिरत आहे (लूपमध्ये अडकले आहे) | - स्पष्ट समाप्ती अटी ठरवा ज्यामुळे एजंट प्रक्रियेचा शेवट कधी करायचा ते समजू शकतो. - कारणमीमांसा आणि नियोजन आवश्यक असलेल्या क्लिष्ट कामांसाठी कारणमीमांसा कार्यासाठी विशेष मोठा मॉडेल वापरा. |
| AI एजंटचे टूल कॉल्स नीट करत नाहीत | - एजंट सिस्टमच्या बाहेर टूल आउटपुट चाचणी आणि पडताळणी करा. - टूल्सची परिमाणे, प्रॉम्प्ट्स आणि नावNECT साँचा पुन्हा तपासा. |
| मल्टी-एजंट प्रणाली सतत नीट काम करत नाही | - प्रत्येक एजंटला देण्यात आलेले प्रॉम्प्ट्स सुधार करा जेणेकरून ते एकमेकांपासून वेगळे आणि स्पष्ट असतील. - योग्य एजंट कोणता हे ठरवण्यासाठी “राउटिंग” किंवा कंट्रोलर एजंट वापरून पदानुक्रमित प्रणाली तयार करा. |
ही अनेक समस्या निरीक्षण असल्यास अधिक प्रभावीपणे ओळखल्या जाऊ शकतात. वरील ट्रेसेस आणि मेट्रिक्स एजंट कार्यप्रवाहातील अचूक त्रुटी ठिकाण ओळखण्यात मदत करतात, ज्यामुळे डिबगिंग आणि ऑप्टिमायझेशन खूप कार्यक्षम होते.
AI एजंट्सना उत्पादनात तैनात करण्याच्या खर्चाचे व्यवस्थापन करण्यासाठी काही धोरणे येथे आहेत:
लहान मॉडेल्सचा वापर: लहान भाषा मॉडेल्स (SLMs) काही एजंटिक वापराच्या प्रकरणांवर चांगले कार्य करू शकतात आणि खर्च लक्षणीयरीत्या कमी करतील. यापूर्वी नमूद केल्याप्रमाणे, एक मूल्यांकन प्रणाली तयार करणे जी कार्यक्षमता मोठ्या मॉडेल्सशी कशी तुलना करते हे ठरवते व समजून घेते की SLM तुमच्या वापराच्या प्रकरणावर किती चांगले कार्य करेल हे समजण्याचा सर्वोत्तम मार्ग आहे. साधे कार्य जसे की हेतू वर्गीकरण किंवा पॅरामीटर काढणीसाठी SLM वापरण्याचा विचार करा, तर जटिल विश्लेषणासाठी मोठ्या मॉडेल्स राखून ठेवा.
राउटर मॉडेल वापरणे: एक समान धोरण म्हणजे विविध मॉडेल्स व आकारांचा वापर करणे. तुम्ही LLM/SLM किंवा सर्व्हरलेस फंक्शन वापरून गुंतागुंत यांच्या आधारे विनंत्या योग्य मॉडेल्सकडे मार्ग दाखवू शकता. यामुळे खर्च कमी होण्यास मदत होईल तसेच योग्य कार्यांवर कार्यक्षमतेची खात्री होईल. उदाहरणार्थ, साध्या चौकशा लहान, वेगवान मॉडेल्सकडे वळवा, आणि खर्चिक मोठ्या मॉडेल्स जटिल विश्लेषण कार्यांसाठीच वापरा.
प्रतिक्रिया कॅशिंग: सामान्य विनंत्या आणि कार्य ओळखून त्यांना तुमच्या एजंटिक प्रणालीत जाण्यापूर्वीच प्रतिक्रिया देणे, अशाच विनंत्यांच्या प्रमाणात घट करण्याचा चांगला मार्ग आहे. तुम्ही अगदी मूलभूत AI मॉडेल्स वापरून कॅश केलेल्या विनंत्यांशी कोणती विनंती किती सारखी आहे हे ओळखण्यासाठी एक प्रवाहही अंमलात आणू शकता. नेहमी विचारल्या जाणाऱ्या प्रश्नांसाठी किंवा सामान्य कार्यप्रवाहांसाठी या धोरणामुळे खर्च खूप कमी होऊ शकतो.
या विभागाचा उदाहरण नोटबुक मध्ये, आपण पाहू की आम्ही कसे निरीक्षण साधने वापरून आमच्या एजंटचे निरीक्षण व मूल्यांकन करू शकतो.
Microsoft Foundry Discord मध्ये सामील व्हा, इतर शिकणाऱ्यांशी भेटा, ऑफिस तासांना सहभागी व्हा आणि तुमचे AI एजंट्स संबंधित प्रश्न सोडवा.
सूचना:
हा दस्तऐवज AI अनुवाद सेवेद्वारे Co-op Translator वापरून अनुवादित करण्यात आला आहे. जरी आम्ही अचूकतेसाठी प्रयत्न करत असलो तरी, कृपया लक्षात घ्या की स्वयंचलित अनुवादांमध्ये चुका किंवा अचूकतेत त्रुटी असू शकतात. मूळ दस्तऐवज त्याच्या स्थानिक भाषेत अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीकरिता व्यावसायिक मानवी अनुवाद सुचवले आहे. या अनुवादाच्या वापरामुळे उद्भवणाऱ्या कोणत्याही गैरसमजुती किंवा चुकीच्या अर्थ लावण्याबद्दल आम्ही जबाबदार नाही.