ai-agents-for-beginners

उत्पादनातील AI एजंट्स: निरीक्षण आणि मूल्यमापन

AI Agents in Production

जसे AI एजंट्स प्रयोगात्मक प्रोटोटाइप्समधून प्रत्यक्ष जगातील अनुप्रयोगांकडे जात आहेत, तसे त्यांचे वर्तन समजून घेण्याची, त्यांच्या कामगिरीचे निरीक्षण करण्याची आणि त्यांच्या उत्पादनांचे प्रणालीबद्ध मूल्यमापन करण्याची क्षमता महत्त्वाची बनते.

शिक्षणाचे उद्दिष्टे

ही धडा पूर्ण केल्यावर, तुम्हाला कसे करायचे/समजेल:

हे उद्दिष्ट तुम्हाला “ब्लॅक बॉक्स” एजंट्सला पारदर्शक, व्यवस्थापनीय आणि विश्वासार्ह प्रणालींमध्ये रूपांतरित करण्यासाठी ज्ञानाने सुसज्ज करणे आहे.

टीप: सुरक्षित आणि विश्वासार्ह AI एजंट तैनात करणे महत्त्वाचे आहे. यासाठी Building Trustworthy AI Agents धडा ही पहा.

ट्रेसेस आणि स्पॅन्स

निरीक्षण साधने जसे की Langfuse किंवा Microsoft Foundry सहसा एजंटच्या कामांची प्रतिनिधी म्हणून ट्रेसेस आणि स्पॅन्स वापरतात.

Trace tree in Langfuse

निरीक्षणाशिवाय, AI एजंट “ब्लॅक बॉक्स” सारखा वाटू शकतो - त्याची अंतर्गत स्थिती आणि तार्किक प्रक्रिया अस्पष्ट असतात, ज्यामुळे समस्या ओळखणे किंवा कामगिरी सुधारणे कठीण होते. निरीक्षणामुळे, एजंट “काचेचे बॉक्स” म्हणून काम करतात, जे पारदर्शकता प्रदान करते आणि विश्वास निर्माण करण्यासाठी तसेच त्यांच्या योग्य कामांबद्दल खात्री करण्यासाठी अत्यंत गरजेचे आहे.

उत्पादन वातावरणात निरीक्षण का महत्त्वाचे आहे

AI एजंट्सना उत्पादन वातावरणात स्थानांतरीत करताना विविध आव्हाने आणि गरजा उद्भवतात. निरीक्षण फक्त “आच्छादनासाठी चांगले” नसून एक महत्त्वाचा कौशल्य बनते:

ट्रॅक करण्यासाठी मुख्य मेट्रिक्स

एजंटच्या वर्तनाचे निरीक्षण आणि समजण्यासाठी विविध मेट्रिक्स आणि सिग्नल्स ट्रॅक करणे आवश्यक आहे. एजंटच्या उद्दीष्टानुसार विशिष्ट मेट्रिक्स वेगवेगळे असू शकतात, परंतु काही सार्वत्रिक महत्त्वाचे आहेत.

इथे निरीक्षण साधने ज्या सामान्य मेट्रिक्सवर लक्ष ठेवतात त्यातील काही:

विलंब: एजंट किती वेगाने प्रतिसाद देतो? दीर्घ प्रतीक्षा वेळा वापरकर्ता अनुभवावर नकारात्मक परिणाम करतात. तुम्ही एजंट रन ट्रेसिंग करून कामे आणि वैयक्तिक टप्प्यांसाठी विलंब मोजावा. उदाहरणार्थ, जर एक एजंट सर्व मॉडेल कॉलसाठी २० सेकंद घेत असेल, तर वेगवान मॉडेल वापरून किंवा मॉडेल कॉल्स समानांतर चालवून जलद कामगिरी करता येऊ शकते.

खर्च: एका एजंट रनचा खर्च किती? AI एजंट्स LLM कॉलवर आधारित असतात ज्यांची बिलिंग टोकन किंवा बाह्य API वापराप्रमाणे होते. वारंवार टूल वापर किंवा अनेक प्रॉम्प्ट्स खर्च वाढवू शकतात. उदाहरणार्थ, जर एखादा एजंट गुणवत्ता सुधारण्यासाठी LLM ला पाच वेळा कॉल करत असेल, तर तुम्ही त्या खर्चाचे मूल्यांकन करावे किंवा कॉलची संख्या कमी करावी किंवा स्वस्त मॉडेल वापरावे. वास्तविक वेळेतील निरीक्षण अनपेक्षित झेप ओळखण्यात मदत करू शकते (उदा. बग्समुळे API लूप्सला अधिक वेळ लागू झालेला).

रेक्वेस्ट एरर्स: एजंटने किती विनंत्या अयशस्वी केल्या? यामध्ये API त्रुटी किंवा अयशस्वी टूल कॉल्स असू शकतात. उत्पादनात एजंट अधिक मजबूत बनवण्यासाठी तुम्ही फॉलबॅक किंवा पुनर्प्रयत्न सेट करू शकता. उदा. जर LLM प्रोव्हायडर A डाउन असेल, तर बॅकअप म्हणून LLM प्रोव्हायडर B कडे बदला.

वापरकर्त्यांचा अभिप्राय: थेट वापरकर्ता मूल्यमापन अमूल्य अंतर्दृष्टी देतात. यामध्ये स्पष्ट रेटिंग्ज (👍थंब्स-अप/👎थंब्स-डाउन, ⭐1-5 तारे) किंवा मजकूर-based टिप्पण्या असू शकतात. सातत्यमान नकारात्मक अभिप्राय म्हणजे एजंट अपेक्षेप्रमाणे काम करत नाही हे निदर्शक आहे.

अप्रत्यक्ष वापरकर्ता अभिप्राय: वापरकर्त्यांचे वर्तन स्पष्ट रेटिंग्जशिवायही अप्रत्यक्ष अभिप्राय देते. यात त्वरित प्रश्न पुन्हा विचारणे, क्वेरी पुनरावृत्ती करणे किंवा पुनर्प्रयत्न बटणावर क्लिक करणे समाविष्ट आहे. उदा. वापरकर्ते वारंवार तेच प्रश्न विचारत असल्यास, ते एजंटच्या अपेक्षेप्रमाणे कार्य न करण्याचे सूचक आहे.

अचूकता: एजंट किती वेळा योग्य किंवा अपेक्षित उत्तर देते? अचूकतेची व्याख्या वेगवेगळी असते (उदा. समस्या सोडवण्याची अचूकता, माहिती पुनर्प्राप्तीची अचूकता, वापरकर्ता समाधान). पहिला टप्पा म्हणजे एजंटसाठी यश काय दिसते हे ठरवणे. तुम्ही स्वयंचलित तपास, मूल्यमापन गुण किंवा टास्क पूर्ण झाले याच्या लेबल्सद्वारे अचूकता ट्रॅक करू शकता. उदा., ट्रेसेस “यशस्वी” किंवा “अयशस्वी” म्हणून मार्क करणे.

स्वयंचलित मूल्यमापन मेट्रिक्स: तुम्ही स्वयंचलित मूल्यमापन देखील सेट करू शकता. उदाहरणार्थ, तुम्ही LLM वापरून एजंटच्या उत्पादनाला गुण देऊ शकता की ते उपयुक्त, अचूक आहे की नाही. काही मुक्त स्रोत लायब्ररी आहेत ज्या एजंटच्या विविध पैलूंना गुणांक देण्यास मदत करतात. उदा. RAGAS RAG एजंटसाठी किंवा LLM Guard हानिकारक भाषा किंवा प्रॉम्प्ट इंजेक्शन शोधण्यासाठी.

वास्तविक वापरात, या मेट्रिक्सच्या संयोजनामुळे AI एजंटच्या अवस्था आणि कामगिरीचे उत्तम कव्हरेज मिळते. या प्रकरणातील उदाहरण नोटबुक मध्ये आम्ही तुम्हाला मेट्रिक्स वास्तविक उदाहरणांमध्ये कसे दिसतात ते दाखवू, परंतु प्रथम आम्ही शेपटीचे मूल्यमापन कसे करतात ते शिकू.

तुमचा एजंट साधनसामग्री करा

ट्रेसिंग डेटा गोळा करण्यासाठी, तुम्हाला तुमचा कोड साधनसामग्री करावा लागेल. उद्दिष्ट म्हणजे एजंट कोडमध्ये असे साधनसामग्री करणे ज्यामुळे ट्रेसेस आणि मेट्रिक्स निर्माण होतील, ज्याची पकड, प्रक्रिया आणि दृश्यात्मकता निरीक्षण प्लॅटफॉर्म करता येईल.

OpenTelemetry (OTel): OpenTelemetry LLM निरीक्षणासाठी उद्योग मानक म्हणून उदयास आले आहे. ते टेलीमेट्री डेटा तयार करण्यासाठी, गोळा करण्यासाठी आणि निर्यात करण्यासाठी API, SDK आणि साधने पुरवते.

अनेक साधनसामग्री लायब्ररीज उपलब्ध आहेत ज्या विद्यमान एजंट फ्रेमवर्क्सला वेढून OpenTelemetry स्पॅन्स सहज निर्यात करण्यास मदत करतात. Microsoft Agent Framework OpenTelemetry सह नैसर्गिकरीत्या एकत्रित आहे. खाली MAF एजंट साधनसामग्री करण्याचे उदाहरण दिले आहे:

from agent_framework.observability import get_tracer, get_meter

tracer = get_tracer()
meter = get_meter()

with tracer.start_as_current_span("agent_run"):
    # एजेंटची अंमलबजावणी आपोआप ट्रेस केली जाते
    pass

या प्रकरणातील उदाहरण नोटबुक मध्ये तुम्हाला MAF एजंट कसे साधनसामग्री करायचे ते दाखवले जाईल.

मॅन्युअल स्पॅन निर्माण: साधनसामग्री लायब्ररी चांगले बेसलाइन पुरवतात, परंतु अनेक वेळा अधिक विस्तृत किंवा सानुकूल माहितीची गरज असते. तुम्ही सानुकूल अॅप्लिकेशन लॉजिक जोडण्यासाठी स्वतः स्पॅन्स तयार करू शकता. सर्वात महत्त्वाचे म्हणजे, ते आपोआप किंवा मॅन्युअली तयार केलेल्या स्पॅन्सना सानुकूल गुणधर्मांनी (टॅग किंवा मेटाडेटा म्हणतात) समृद्ध करू शकतात. हे गुणधर्म व्यावसायिक डेटा, मधली गणना किंवा डिबगिंग किंवा विश्लेषणासाठी उपयुक्त असलेला कोणताही संदर्भ असू शकतो, उदा. user_id, session_id, किंवा model_version.

Langfuse Python SDK चा वापर करून ट्रेसेस आणि स्पॅन्स मॅन्युअली तयार करण्याचे उदाहरण:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

एजंट मूल्यमापन

निरीक्षण आपल्याला मेट्रिक्स देते, परंतु मूल्यमापन हे त्या डेटाचे विश्लेषण करण्याची प्रक्रिया आहे (आणि चाचण्या घेणे) ज्याद्वारे AI एजंटची कामगिरी कशी आहे आणि ती कशी सुधारली जाऊ शकते हे ठरवले जाते. म्हणजे, एकदा तुम्हाला त्याच ट्रेसेस आणि मेट्रिक्स मिळाले की, तुम्ही त्यांचा वापर एजंटचे मूल्यांकन करण्यासाठी आणि निर्णय घेण्यासाठी कसा कराल?

नियमित मूल्यमापन महत्त्वाचे आहे कारण AI एजंट्स अनेकदा अनियत (non-deterministic) असतात आणि ते विकसित होऊ शकतात (अपडेट्स किंवा मॉडेल वर्तनातील विस्थापनांमुळे) – मूल्यमापनाशिवाय तुम्हाला कळणार नाही की तुमचा “स्मार्ट एजंट” खरोखरच त्याचे काम व्यवस्थित करत आहे की नाही किंवा ते खाली गेले आहे.

AI एजंट्ससाठी दोन प्रकारचे मूल्यमापन असतात: ऑनलाइन मूल्यमापन आणि ऑफलाइन मूल्यमापन. दोन्ही उपयुक्त आहेत आणि एकमेकांना पूरक आहेत. आम्ही सहसा ऑफलाइन मूल्यमापनाने सुरुवात करतो, कारण हे कोणताही एजंट तैनात करण्यापूर्वी किमान आवश्यक टप्पा आहे.

ऑफलाइन मूल्यमापन

Dataset items in Langfuse

यामध्ये एजंटचे मूल्यमापन नियंत्रित वातावरणात केले जाते, सामान्यतः चाचणी डेटासेट्स वापरून, थेट वापरकर्ता क्वेरीशिवाय. तुम्ही यंत्रित डेटासेट्स वापरता जिथे तुम्हाला अपेक्षित उत्पादन किंवा योग्य वर्तन माहित असते आणि त्यावर तुमचा एजंट चालवता.

उदाहरणार्थ, जर तुम्ही गणिताच्या शब्दसमस्या सोडवणारा एजंट तयार केला असेल, तर तुमच्याकडे चाचणी डेटासेट असेल ज्यात १०० प्रश्न आहेत ज्यांची उत्तरे ठरलेली आहेत. ऑफलाइन मूल्यमापन विकासादरम्यान केले जाते (आणि CI/CD पाइपलाइनचा भाग होऊ शकते) सुधारणा तपासण्यासाठी किंवा कमीपणा नियंत्रणासाठी. त्याचा फायदा म्हणजे ते पुन्हा पुन्हा करता येते आणि तुम्हाला स्पष्ट अचूकता मेट्रिक्स मिळतात कारण तुम्हाला खरे उत्तर माहित असते. तुम्ही युजर क्वेरीजचे अनुकरण करून एजंटच्या प्रतिसादांची तुलना आदर्श उत्तरांशी करू शकता किंवा वर सांगितल्याप्रमाणे स्वयंचलित मेट्रिक्स वापरू शकता.

ऑफलाइन मूल्यमापनात मुख्य आव्हान म्हणजे तुमचा चाचणी डेटासेट सर्वसमावेशक असणे आणि आवश्यक तेव्हा अद्ययावत ठेवणे – एजंट एका ठराविक चाचणी सेटवर चांगले काम करू शकतो पण उत्पादनात खूप वेगळ्या क्वेरीजला सामोरे जावे लागू शकते. म्हणून, तुम्ही नवीन वळणप्रश्न आणि वास्तविक संदर्भ दर्शवणाऱ्या उदाहरणांसह चाचणी संच अद्ययावत ठेवणे आवश्यक आहे. लहान “स्मोक टेस्ट” प्रकरणे आणि मोठे मूल्यमापन संच या दोहोंचा समावेश फायदेशीर आहे: लहान संच जलद तपासणीसाठी आणि मोठे विस्तृत कामगिरी मोजण्यासाठी.

ऑनलाइन मूल्यमापन

Observability metrics overview

याचा अर्थ एजंटचे मूल्यमापन प्रत्यक्ष वापरात, वास्तविक वातावरणात करणे म्हणजे उत्पादनात वापराच्या वेळी होते. ऑनलाइन मूल्यमापनात एजंटच्या प्रतिक्रियांचे सतत निरीक्षण आणि परिणांवर विश्लेषण केले जाते.

उदाहरणार्थ, तुम्ही यशस्वी दर, वापरकर्त्यांचे समाधान गुण किंवा इतर मेट्रिक्स लाइव्ह ट्राफिकवर ट्रॅक करू शकता. ऑनलाइन मूल्यमापनाचा फायदा म्हणजे ते प्रयोगशाळेतील सेटिंगमध्ये अपेक्षित नसलेल्या गोष्टी धरू शकते – तुम्ही मॉडेल विस्थापन (जर एजंटची कार्यक्षमता इनपुट पॅटर्न बदलल्यामुळे कमी होते) पाहू शकता आणि अनपेक्षित क्वेरीज किंवा परिस्थिति ओळखू शकता जो तुमच्या चाचणी डेटामध्ये नव्हता. हे एजंट कसे वागत आहे याचे खरं चित्र देते.

ऑनलाइन मूल्यमापन मध्ये अप्रत्यक्ष आणि स्पष्ट वापरकर्ता अभिप्राय गोळा करणे समाविष्ट आहे, तसेच शॅडो टेस्ट किंवा A/B टेस्ट्स चालवणे देखील (जिथे नवीन आवृत्ती आधीच्या विरूद्ध तुलना करण्यासाठी समांतर चालते). आव्हान म्हणजे लाइव्ह इंटरॅक्शन्ससाठी विश्वासार्ह लेबले किंवा स्कोर्स मिळवणे कठीण असू शकते – तुम्हाला वापरकर्ता अभिप्राय किंवा डाउनस्ट्रीम मेट्रिक्स (जसे वापरकर्त्याने निकालावर क्लिक केला का) यावर अवलंबून रहावे लागू शकते.

दोन्ही मिसळणे

ऑनलाइन आणि ऑफलाइन मूल्यमापन परस्पर विरोधी नाहीत; ते परस्पर पूरक आहेत. ऑनलाइन निरीक्षणातून मिळालेल्या अंतर्दृष्टी (उदा. नवीन प्रकारच्या वापरकर्त्यांच्या क्वेरीज ज्यावर एजंट खराब कामगिरी करतो) वापरून तुम्ही ऑफलाइन चाचणी डेटासेट सुधारणे करू शकता. उलट, जे एजंट ऑफलाइन चाचण्या उत्तीर्ण करतात ते अधिक आत्मविश्वासाने उत्पादनात तैनात आणि ऑनलाइन निरीक्षण करता येतात.

बरेच संघ खालीलप्रमाणेच लूप स्वीकारतात:

ऑफलाइन मूल्यमापन -> तैनात करा -> ऑनलाइन निरीक्षण करा -> नवीन अयशस्वी प्रकरणे गोळा करा -> ऑफलाइन डेटासेट मध्ये जोडा -> एजंट सुधारणा करा -> पुनरावृत्ती करा.

सामान्य समस्या

जसे तुम्ही उत्पादनात AI एजंट्स तैनात करता, तुम्हाला अनेक आव्हानांचा सामना करावा लागू शकतो. येथे काही सामान्य समस्या आणि त्यांचे संभाव्य उपाय आहेत:

समस्या संभाव्य उपाय
AI एजंट सतत कामे नीट करत नाही - AI एजंटला दिलेला प्रॉम्प्ट सुधारणा करा; उद्दिष्टे स्पष्ट करा.
- कामे उपकार्यांमध्ये विभागणे आणि त्यांना अनेक एजंटांनी हाताळणे याचा विचार करा.
AI एजंट सतत फिरत आहे (लूपमध्ये अडकले आहे) - स्पष्ट समाप्ती अटी ठरवा ज्यामुळे एजंट प्रक्रियेचा शेवट कधी करायचा ते समजू शकतो.
- कारणमीमांसा आणि नियोजन आवश्यक असलेल्या क्लिष्ट कामांसाठी कारणमीमांसा कार्यासाठी विशेष मोठा मॉडेल वापरा.
AI एजंटचे टूल कॉल्स नीट करत नाहीत - एजंट सिस्टमच्या बाहेर टूल आउटपुट चाचणी आणि पडताळणी करा.
- टूल्सची परिमाणे, प्रॉम्प्ट्स आणि नावNECT साँचा पुन्हा तपासा.
मल्टी-एजंट प्रणाली सतत नीट काम करत नाही - प्रत्येक एजंटला देण्यात आलेले प्रॉम्प्ट्स सुधार करा जेणेकरून ते एकमेकांपासून वेगळे आणि स्पष्ट असतील.
- योग्य एजंट कोणता हे ठरवण्यासाठी “राउटिंग” किंवा कंट्रोलर एजंट वापरून पदानुक्रमित प्रणाली तयार करा.

ही अनेक समस्या निरीक्षण असल्यास अधिक प्रभावीपणे ओळखल्या जाऊ शकतात. वरील ट्रेसेस आणि मेट्रिक्स एजंट कार्यप्रवाहातील अचूक त्रुटी ठिकाण ओळखण्यात मदत करतात, ज्यामुळे डिबगिंग आणि ऑप्टिमायझेशन खूप कार्यक्षम होते.

खर्च व्यवस्थापन

AI एजंट्सना उत्पादनात तैनात करण्याच्या खर्चाचे व्यवस्थापन करण्यासाठी काही धोरणे येथे आहेत:

लहान मॉडेल्सचा वापर: लहान भाषा मॉडेल्स (SLMs) काही एजंटिक वापराच्या प्रकरणांवर चांगले कार्य करू शकतात आणि खर्च लक्षणीयरीत्या कमी करतील. यापूर्वी नमूद केल्याप्रमाणे, एक मूल्यांकन प्रणाली तयार करणे जी कार्यक्षमता मोठ्या मॉडेल्सशी कशी तुलना करते हे ठरवते व समजून घेते की SLM तुमच्या वापराच्या प्रकरणावर किती चांगले कार्य करेल हे समजण्याचा सर्वोत्तम मार्ग आहे. साधे कार्य जसे की हेतू वर्गीकरण किंवा पॅरामीटर काढणीसाठी SLM वापरण्याचा विचार करा, तर जटिल विश्लेषणासाठी मोठ्या मॉडेल्स राखून ठेवा.

राउटर मॉडेल वापरणे: एक समान धोरण म्हणजे विविध मॉडेल्स व आकारांचा वापर करणे. तुम्ही LLM/SLM किंवा सर्व्हरलेस फंक्शन वापरून गुंतागुंत यांच्या आधारे विनंत्या योग्य मॉडेल्सकडे मार्ग दाखवू शकता. यामुळे खर्च कमी होण्यास मदत होईल तसेच योग्य कार्यांवर कार्यक्षमतेची खात्री होईल. उदाहरणार्थ, साध्या चौकशा लहान, वेगवान मॉडेल्सकडे वळवा, आणि खर्चिक मोठ्या मॉडेल्स जटिल विश्लेषण कार्यांसाठीच वापरा.

प्रतिक्रिया कॅशिंग: सामान्य विनंत्या आणि कार्य ओळखून त्यांना तुमच्या एजंटिक प्रणालीत जाण्यापूर्वीच प्रतिक्रिया देणे, अशाच विनंत्यांच्या प्रमाणात घट करण्याचा चांगला मार्ग आहे. तुम्ही अगदी मूलभूत AI मॉडेल्स वापरून कॅश केलेल्या विनंत्यांशी कोणती विनंती किती सारखी आहे हे ओळखण्यासाठी एक प्रवाहही अंमलात आणू शकता. नेहमी विचारल्या जाणाऱ्या प्रश्नांसाठी किंवा सामान्य कार्यप्रवाहांसाठी या धोरणामुळे खर्च खूप कमी होऊ शकतो.

चला पाहूया हे प्रत्यक्षात कसे काम करते

या विभागाचा उदाहरण नोटबुक मध्ये, आपण पाहू की आम्ही कसे निरीक्षण साधने वापरून आमच्या एजंटचे निरीक्षण व मूल्यांकन करू शकतो.

उत्पादनातील AI एजंट्सविषयी अजून प्रश्न आहेत?

Microsoft Foundry Discord मध्ये सामील व्हा, इतर शिकणाऱ्यांशी भेटा, ऑफिस तासांना सहभागी व्हा आणि तुमचे AI एजंट्स संबंधित प्रश्न सोडवा.

मागील धडा

Metacognition Design Pattern

पुढील धडा

Agentic Protocols


सूचना:
हा दस्तऐवज AI अनुवाद सेवेद्वारे Co-op Translator वापरून अनुवादित करण्यात आला आहे. जरी आम्ही अचूकतेसाठी प्रयत्न करत असलो तरी, कृपया लक्षात घ्या की स्वयंचलित अनुवादांमध्ये चुका किंवा अचूकतेत त्रुटी असू शकतात. मूळ दस्तऐवज त्याच्या स्थानिक भाषेत अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीकरिता व्यावसायिक मानवी अनुवाद सुचवले आहे. या अनुवादाच्या वापरामुळे उद्भवणाऱ्या कोणत्याही गैरसमजुती किंवा चुकीच्या अर्थ लावण्याबद्दल आम्ही जबाबदार नाही.