जब AI एजेन्टहरू प्रायोगिक प्रोटोटाइपबाट वास्तविक-विश्व अनुप्रयोगतर्फ सर्छन्, तिनीहरूको व्यवहार बुझ्ने, प्रदर्शन अनुगमन गर्ने, र तिनका आउटपुटहरू व्यवस्थित रूपमा मूल्याङ्कन गर्ने क्षमता महत्त्वपूर्ण हुन्छ।
यस पाठलाई पूरा गरेपछि, तपाईं यी कुराहरू कसरी गर्ने/बुझ्ने जान्नु हुनेछ:
लक्ष्य भनेको तपाईंलाई “ब्ल्याक बक्स” एजेन्टहरूलाई पारदर्शी, व्यवस्थापनयोग्य, र भरपर्दो प्रणालीहरूमा रूपान्तरण गर्न आवश्यक ज्ञान प्रदान गर्नु हो।
नोट: सुरक्षित र विश्वासयोग्य AI एजेन्टहरू तैनाथ गर्नु महत्त्वपूर्ण छ। Building Trustworthy AI Agents पाठ पनि हेर्नुहोस्।
Langfuse वा Microsoft Foundry जस्ता अवलोकन उपकरणहरूले सामान्यतया एजेन्ट रनहरूलाई ट्रेस र स्प्यानका रूपमा प्रतिनिधित्व गर्दछन्।
अवलोकनविना, AI एजेन्ट “ब्ल्याक बक्स” जस्तो महसुस हुन सक्छ — यसको आन्तरिक अवस्था र तर्क अस्पष्ट हुन्छ, जसले समस्याहरू निदान गर्न वा प्रदर्शन अनुकूलन गर्न कठिनाई पुर्याउँछ। अवलोकनसँग, एजेन्टहरू “ग्लास बक्स” बन्छन्, पारदर्शिता प्रदान गर्छन् जुन विश्वास निर्माण र तिनीहरू अपेक्षित रूपमा काम गरिरहेको सुनिश्चित गर्न अत्यावश्यक हुन्छ।
AI एजेन्टहरूलाई उत्पादन वातावरणमा सार्दा नयाँ चुनौतीहरू र आवश्यकताहरू देखा पर्छन्। अवलोकन अब “राम्रो-to-have” होइन, तर एउटा निर्णायक क्षमता हो:
एजेन्ट व्यवहार अनुगमन र बुझ्नका लागि, विभिन्न मेट्रिक्स र संकेतहरू ट्र्याक गर्नुपर्छ। एजेन्टको उद्देश्यमा आधारित मेट्रिक्स फरक हुन सक्छन्, तर केही सार्वभौमिक रूपमा महत्त्वपूर्ण छन्।
यहाँ अवलोकन उपकरणहरूले सामान्यतया अनुगमन गर्ने केही सामान्य मेट्रिक्सहरू छन्:
लेटेन्सी: एजेन्ट कति छिटो प्रतिक्रिया गर्छ? लामो प्रतीक्षा समयले प्रयोगकर्ता अनुभवमा नकारात्मक प्रभाव पार्छ। तपाईंले एजेन्ट रनहरू ट्रेस गरेर कार्यहरू र व्यक्तिगत कदमहरूको लेटेन्सी मापन गर्नुपर्छ। उदाहरणका लागि, यदि एउटा एजेन्टले सबै मोडेल कलहरूका लागि 20 सेकेन्ड लिन्छ भने, छिटो मोडेल प्रयोग गरेर वा मोडेल कलहरू समानान्तर चलाएर यसलाई तीव्र बनाउन सकिन्छ।
लागतहरू: प्रति एजेन्ट रन कति खर्च लाग्छ? AI एजेन्टहरू LLM कलहरू वा बाह्य API हरूमा निर्भर गर्दछन्। बारम्बार उपकरण प्रयोग वा बहु प्राँप्टहरूले लागत द्रुत रूपमा बढाउन सक्छ। उदाहरणका लागि, यदि एजेन्टले सानातिना गुणस्तर सुधारका लागि LLM पाँच पटक कल गर्छ भने, लागत न्यायसंगत छ कि छैन मूल्याङ्कन गर्नुपर्ने हुन्छ वा कलहरूको संख्या घटाउन वा सस्तो मोडेल प्रयोग गर्न सकिन्छ। वास्तविक-समय अनुगमनले अनपेक्षित स्पाइक्स (उदाहरण: बगहरू जसले अत्यधिक API लूप्स सिर्जना गर्छ) पत्ता लगाउन पनि मद्दत गर्छ।
अनुरोध त्रुटिहरू: कति अनुरोधहरू एजेन्टले असफल गर्यो? यसमा API त्रुटिहरू वा उपकरण कल असफलहरू समावेश हुन सक्छ। उत्पादनमा यीका बिरुद्धमा आफ्नो एजेन्टलाई थप मजबुत बनाउन, तपाईंले फालब्याक वा रिट्राइज सेटअप गर्न सक्नुहुन्छ। जस्तै, यदि LLM प्रदायक A डाउन छ भने, तपाईं ब्याकअपको रूपमा LLM प्रदायक B मा स्विच गर्नुहुन्छ।
प्रयोगकर्ता फिडब्याक: प्रत्यक्ष प्रयोगकर्ता मूल्याङ्कनहरू अमूल्य अन्तर्दृष्टि प्रदान गर्छन्। यसमा स्पष्ट रेटिङहरू (👍thumbs-up/👎down, ⭐1-5 स्टार) वा पाठ्य टिप्पणीहरू समावेश हुन सक्छ। लगातार नकारात्मक फिडब्याकले तपाईंलाई सचेत गराउनुपर्छ कि एजेन्ट अपेक्षित रूपमा काम गरिरहेको छैन।
अप्रत्यक्ष प्रयोगकर्ता फिडब्याक: प्रयोगकर्ता व्यवहारहरूले स्पष्ट रेटिङ बिना पनि अप्रत्यक्ष फिडब्याक प्रदान गर्छ। यसमा तत्काल प्रश्न पुनःफ्रेज़िङ, बारम्बार सोधपुछ वा रिट्राइ बटन क्लिक गर्नेजस्ता व्यवहारहरू समावेश हुन सक्छ। उदाहरणका लागि, यदि प्रयोगकर्ताहरूले बारम्बार एउटै प्रश्न सोधिरहेको देख्नुहुन्छ भने, यो संकेत हो कि एजेन्ट अपेक्षित रूपमा काम गरिरहेको छैन।
सहीपन (Accuracy): एजेन्टले कति पटक सही वा इच्छित आउटपुट उत्पादन गर्छ? सहीपन परिभाषाहरू फरक हुन सक्छन् (जस्तै समस्या समाधान सहीपन, जानकारी पुनःप्राप्ति सहीपन, प्रयोगकर्ता सन्तुष्टि)। पहिलो कदम भनेको तपाईंको एजेन्टका लागि सफलता कस्तो देखिन्छ परिभाषित गर्नु हो। तपाईंले स्वत: जाँचहरू, मूल्याङ्कन स्कोरहरू, वा कार्य पूरा लेबलहरू मार्फत सहीपन ट्र्याक गर्न सक्नुहुन्छ। उदाहरणका लागि, ट्रेसहरूलाई “सफल” वा “असफल” रूपमा मार्क गर्नु।
स्वचालित मूल्याङ्कन मेट्रिक्स: तपाईंले स्वचालित इवाल सेटअप पनि गर्न सक्नुहुन्छ। उदाहरणका लागि, तपाईंले एजेण्टको आउटपुटलाई स्कोर गर्न LLM प्रयोग गर्न सक्नुहुन्छ जस्तै यो उपयोगी छ, सही छ, वा होइन भनेर। त्यहाँ त्यस्ता विभिन्न पक्षहरू स्कोर गर्न मद्दत गर्ने केहि खुला स्रोत पुस्तकालयहरू पनि छन्। जस्तै RAG एजेन्टहरूको लागि RAGAS वा हानिकारक भाषा वा प्रॉम्प्ट इन्जेक्सन पत्ता लगाउन LLM Guard।
व्यवहारमा, यी मेट्रिक्सहरूको संयोजनले AI एजेन्टको स्वास्थ्यको राम्रो कभरेज दिन्छ। यस अध्यायको example notebook मा हामी वास्तविक उदाहरणहरूमा यी मेट्रिक्सहरू कस्तो देखिन्छन् देखाउनेछौं तर पहिले, हामीले सामान्य मूल्याङ्कन वर्कफ्लो कस्तो देखिन्छ भन्ने सिक्नेछौं।
ट्रेसिङ डेटा सङ्कलन गर्नका लागि, तपाईंले आफ्नो कोड इन्स्ट्रुमेन्ट गर्न आवश्यक पर्दछ। लक्ष्य भनेको यस्तो इन्स्ट्रुमेन्टेशन गर्नु हो जसले ट्रेस र मेट्रिक्स निकालोस् जसलाई कुनै अवलोकन प्लेटफर्मले क्याप्चर, प्रक्रिया, र भिजुअलाइज गर्न सकोस्।
OpenTelemetry (OTel): OpenTelemetry LLM अवलोकनका लागि एउटा उद्योग मानकको रूपमा उदाएको छ। यसले टेलिमेट्री डेटा उत्पन्न, सङ्कलन, र निर्यात गर्ने API, SDK र उपकरणहरूको सेट प्रदान गर्छ।
धेरै इन्स्ट्रुमेन्टेसन लाइब्रेरीहरूले अवस्थित एजेन्ट फ्रेमवर्कहरूलाई र्याप गरेर OpenTelemetry स्प्यानहरूलाई अवलोकन उपकरणतर्फ निर्यात गर्न सजिलो बनाउँछन्। Microsoft Agent Framework ले OpenTelemetry सँग नेटिभ रूपमा एकीकृत हुन्छ। तल MAF एजेन्ट इन्स्ट्रुमेन्ट गर्ने एक उदाहरण छ:
from agent_framework.observability import get_tracer, get_meter
tracer = get_tracer()
meter = get_meter()
with tracer.start_as_current_span("agent_run"):
# एजेन्टको कार्यान्वयन स्वचालित रूपमा ट्रेस गरिन्छ
pass
यस अध्यायको example notebook ले तपाईंको MAF एजेन्टलाई कसरी इन्स्ट्रुमेन्ट गर्ने देखाउनेछ।
म्यानुअल स्प्यान सिर्जना: इन्स्ट्रुमेन्टेसन लाइब्रेरीहरूले राम्रो आधाररेखा प्रदान गर्ने भएता पनि, प्रायः त्यहाँ थप विस्तृत वा अनुकूल जानकारी आवश्यक पर्ने अवस्थामा हुन्छ। तपाईं कस्टम एप्लिकेसन लॉजिक थप्न म्यानुअल रूपमा स्प्यानहरू सिर्जना गर्न सक्नुहुन्छ। अझ महत्त्वपूर्ण, तिनीहरूले अटोम्याटिक वा म्यानुअल रूपमा सिर्जना गरिएका स्प्यानहरूलाई कस्टम एट्रिब्युटहरू (ट्यागहरू वा मेटाडाटा भनिने) ले समृद्ध बनाउन सक्छन्। यी एट्रिब्युटहरूमा व्यापार-विशिष्ट डेटा, मध्यवर्ती गणनाहरू, वा डिबगिङ वा विश्लेषणका लागि उपयोगी हुन सक्ने कुनै पनि सन्दर्भ समावेश हुन सक्छ, जस्तै user_id, session_id, वा model_version।
Langfuse Python SDK सँग ट्रेस र स्प्यानहरू म्यानुअल रूपमा सिर्जना गर्ने उदाहरण:
from langfuse import get_client
langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()
अवलोकनले हामीलाई मेट्रिक्स दिन्छ, तर मूल्याङ्कन भनेको ती डेटा (र परिक्षणहरू) विश्लेषण गर्ने प्रक्रिया हो जसले निर्धारण गर्छ कि AI एजेन्ट कति राम्रो प्रदर्शन गरिरहेको छ र यसलाई कसरी सुधार्न सकिन्छ। अर्को शब्दमा, तपाईंले ती ट्रेस र मेट्रिक्स पाएपछि, तिनीहरूलाई कसरी प्रयोग गरेर एजेन्टलाई न्याय गर्ने र निर्णयहरू लिनुहुन्छ?
नियमित मूल्याङ्कन महत्त्वपूर्ण छ किनकि AI एजेन्टहरू प्रायः गैर-निर्धारक (non-deterministic) हुन्छन् र अपडेटहरू वा मोडेल व्यवहार ड्रिफ्टका माध्यमबाट विकास हुन सक्छन् – मूल्याङ्कन बिना, तपाईंलाई थाहा नहुन सक्छ कि तपाईंको “स्मार्ट एजेन्ट” वास्तवमै राम्रो काम गरिरहेको छ कि यसको प्रदर्शन घटेको छ।
AI एजेन्टहरूको लागि दुई प्रकारका मूल्याङ्कनहरू छन्: अनलाइन मूल्याङ्कन र अफलाइन मूल्याङ्कन। दुवै मूल्यवान छन्, र एकअर्कालाई पूरक बनाउँछन्। हामी प्रायः अफलाइन मूल्याङ्कनबाट सुरु गर्छौं, किनकि कुनै पनि एजेन्ट तैनाथ गर्नु अघि यो न्यूनतम आवश्यक कदम हो।

यसमा नियन्त्रण गरिएको सेटिङमा एजेन्टको मूल्याङ्कन समावेश हुन्छ, सामान्यतया परीक्षण डेटासेटहरू प्रयोग गरेर, लाइभ प्रयोगकर्ता क्वेरीहरू होइन। तपाईंले कुरेट गरिएका डेटासेटहरू प्रयोग गर्नुहुन्छ जहाँ तपाईँलाई अपेक्षित आउटपुट वा सही व्यवहार थाहा हुन्छ, र त्यसपछि आफ्नो एजेन्टलाई तीमा चलाउनुहुन्छ।
उदाहरणका लागि, यदि तपाईंले गणित शब्द-समस्या एजेन्ट बनाउनु भयो भने, तपाईं सँग थाहा भएका उत्तरहरू सहितको 100 समस्याहरूको test dataset हुन सक्छ। अफलाइन मूल्याङ्कन प्रायः विकासको क्रममा गरिन्छ (र CI/CD पाइपलाइन्सको भाग हुन सक्छ) सुधारहरू जाँच्न वा रिग्रेसनहरूबाट जोगिन। फाइदा भनेको यो दोहर्याउन योग्य छ र तपाईंले ग्राउण्ड ट्रुथ भएकोले स्पष्ट सटीकता मेट्रिक्स प्राप्त गर्न सक्नुहुन्छ। तपाईंले प्रयोगकर्ता क्वेरीहरू सिमुलेट गरेर एजेन्टका प्रतिक्रियाहरूलाई आदर्श उत्तरहरूसँग मापन गर्न सक्नुहुन्छ वा माथि वर्णन गरिएका स्वत: मेट्रिक्सहरू प्रयोग गर्न सक्नुहुन्छ।
अफलाइन इवालसँग प्रमुख चुनौती भनेको तपाईंको परीक्षण डेटासेट व्यापक र सान्दर्भिक राख्नु हो – एजेन्टले फिक्स्ड टेस्ट सेटमा राम्रो प्रदर्शन गर्न सक्छ तर उत्पादनमा निकै फरक क्वेरीहरू सामना गर्न सक्छ। त्यसैले, तपाईंले टेस्ट सेटहरूलाई नयाँ एज किनाराका मामिला र वास्तविक-विश्व परिदृश्यहरू प्रतिबिम्बित गर्ने उदाहरणहरू सहित अपडेट राख्नुपर्छ। सानो “स्मोक टेस्ट” केसहरू र ठूला मूल्याङ्कन सेटहरूको मिश्रण उपयोगी हुन्छ: छिटो जाँचहरूको लागि सानो सेट र व्यापक प्रदर्शन मेट्रिक्सका लागि ठूला सेटहरू।

यो लाईभ, वास्तविक-विश्व वातावरणमा, अर्थात् उत्पादनमा वास्तविक प्रयोगका समयमा एजेन्टलाई मूल्याङ्कन गर्ने कुरा हो। अनलाइन मूल्याङ्कनले वास्तविक प्रयोगकर्ता अन्तरक्रियाहरूमा एजेन्टको प्रदर्शन अनुगमन र निरन्तर विश्लेषण समावेश गर्छ।
उदाहरणका लागि, तपाईंले सफलताको दर, प्रयोगकर्ता सन्तुष्टि स्कोरहरू, वा लाइभ ट्राफिकमा अन्य मेट्रिक्स ट्र्याक गर्न सक्नुहुन्छ। अनलाइन मूल्याङ्कनको फाइदा भनेको यो प्रयोगशालाको सेटिङमा अनुमान नलगाएको कुराहरू समात्छ – तपाईं मोडेल ड्रिफ्ट समयक्रममा कसरी देखिन्छ भनेर (यदि इनपुट ढाँचाहरू सारिँदा एजेन्टको प्रभावकारिता घट्छ) र परीक्षण डेटामा नभएका अनपेक्षित क्वेरीहरू वा परिस्थितिहरू पत्ता लगाउन सक्नुहुन्छ। यसले जङ्गलमा एजेन्ट कसरी व्यवहार गर्छ भन्ने वास्तविक तस्वीर प्रदान गर्छ।
अनलाइन मूल्याङ्कनले प्रायः अप्रत्यक्ष र स्पष्ट प्रयोगकर्ता फिडब्याक सङ्कलन समावेश गर्छ, र सम्भवतः श्याडो टेस्टहरू वा A/B परीक्षणहरू चलाउन सक्छ (जहाँ नयाँ संस्करण एजेन्ट पुरानोको विरुद्ध तुलना गर्न समानान्तरमा चल्छ)। चुनौती भनेको लाइभ अन्तरक्रियाहरूका लागि भरपर्दो लेबलहरू वा स्कोरहरू प्राप्त गर्न गाह्रो हुन सक्छ – तपाईंले प्रयोगकर्ता फिडब्याक वा डाउनस्ट्रीम मेट्रिक्सहरू (जस्तै प्रयोगकर्ताले नतिजामा क्लिक गर्यो कि गरेन) मा निर्भर हुन सक्नुहुन्छ।
अनलाइन र अफलाइन मूल्याङ्कन परस्पर विरोधी होइनन्; ती अत्यधिक पूरक छन्। अनलाइन अनुगमनबाट प्राप्त अन्तर्दृष्टिहरू (जस्तै जहाँ एजेन्ट खराब प्रदर्शन गर्छ भन्ने नयाँ प्रकारका प्रयोगकर्ता क्वेरीहरू) लाई अफलाइन टेस्ट डेटासेटहरू समृद्ध पार्न र सुधार गर्न प्रयोग गर्न सकिन्छ। उल्टो तर्फ, अफलाइन परीक्षणहरूमा राम्रो प्रदर्शन गर्ने एजेन्टहरूलाई अधिक विश्वसनीय रूपमा तैनाथ गरेर अनलाइनमा अनुगमन गर्न सकिन्छ।
वास्तवमा, धेरै टोलीहरूले यस्तो लूप अपनाउँछन्:
afline मा मूल्याङ्कन गर्नु -> तैनाथ गर्नु -> अनलाइनमा अनुगमन गर्नु -> नयाँ फेलुर केसहरू सङ्कलन गर्नु -> अफलाइन डेटासेटमा थप्नु -> एजेन्ट परिष्कृत गर्नु -> पुनरावृत्ति।
AI एजेन्टहरूलाई उत्पादनमा तैनाथ गर्दा, तपाईंले विभिन्न चुनौतीहरूको सामना गर्न सक्छ। यहाँ केही सामान्य समस्याहरू र तिनीहरूको सम्भावित समाधानहरू छन्:
| समस्या | सम्भावित समाधान |
|---|---|
| AI एजेन्टले लगातार कामहरू गर्नु हुँदैन | - AI एजेन्टलाई दिइएको प्राँप्ट परिष्कृत गर्नुहोस्; उद्देश्यहरू स्पष्ट राख्नुहोस्। - कुनै बेला कार्यहरूलाई सबटास्कमा विभाजन गरेर र तीलाई बहु एजेन्टहरूले ह्यान्डल गर्दा सहायता पुग्छ कि भनेर पहिचान गर्नुहोस्। |
| AI एजेन्ट निरन्तर लूपहरूमा फसिरहेको छ | - सुनिश्चित गर्नुहोस् कि तपाईंसँग स्पष्ट टर्मिनेशन सर्तहरू र अवस्थाहरू छन् ताकि एजेन्टले कहिले प्रक्रिया रोक्ने थाहा पाओस्। - कारण र योजना आवश्यक पर्ने जटिल कार्यहरूको लागि, तार्किक कार्यहरूको लागि विशेषीकृत ठूलो मोडेल प्रयोग गर्नुहोस्। |
| AI एजेन्टका उपकरण कलहरू राम्रोसँग प्रदर्शन गर्दैन् | - उपकरणको आउटपुटलाई एजेन्ट प्रणाली बाहिर टेस्ट र मान्य गर्नुहोस्। - परिभाषित प्यारामिटरहरू, प्राँप्टहरू, र उपकरणहरूको नामकरण परिष्कृत गर्नुहोस्। |
| मल्टि-एजेन्ट प्रणालीले लगातार काम गरिरहेको छैन | - प्रत्येक एजेन्टलाई दिएको प्राँप्टहरू परिष्कृत गर्नुहोस् ताकि तिनीहरू विशिष्ट र एकअर्काबाट पृथक् भए। - कुन एजेन्ट ठिक हो निर्धारण गर्न “राउटिङ” वा कन्ट्रोलर एजेन्ट प्रयोग गरेर हाइरार्किकल सिस्टम बनाउनुहोस्। |
यीमध्ये धेरै समस्याहरू अवलोकन भएको अवस्थामा अधिक प्रभावकारी रूपमा पहिचान गर्न सकिन्छ। पहिले छलफल गरिएका ट्रेस र मेट्रिक्सहरूले एजेन्ट वर्कफ्लोको कुन हिस्सा मा समस्या उत्पन्न भइरहेको ठ्याक्कै पत्ता लगाउन मद्दत गर्छ, जसले डिबगिङ र अनुकूलनलाई धेरै कुशल बनाउँछ।
Here are some strategies to manage the costs of deploying AI agents to production:
सानो मोडेलहरू प्रयोग गर्ने: साना भाषा मोडेलहरू (SLMs) केही एजेन्टिक उपयोग-मामिलाहरूमा राम्रो प्रदर्शन गर्न सक्छन् र लागतलाई उल्लेख्य रूपमा घटाउँछन्। माथि उल्लेख गरेजस्तै, प्रदर्शन तुलना गर्न र निर्धारण गर्नका लागि एउटा मूल्याङ्कन प्रणाली बनाउनु SLM ले तपाईंको उपयोग केसमा कति राम्रो प्रदर्शन गर्छ भन्ने बुझ्नको लागि उत्तम तरिका हो। सरल कार्यहरू जस्तै उद्देश्य वर्गीकरण वा प्यारामिटर निकाल्ने जस्ता कामहरूका लागि SLM प्रयोग गर्ने विचार गर्नुहोस्, र जटिल तर्कका लागि ठूलो मोडेलहरू सुरक्षित राख्नुहोस्।
राउटर मोडेल प्रयोग गर्ने: समान रणनीति भनेको विभिन्न मोडेल र आकारहरूको विविधता प्रयोग गर्नु हो। तपाईं जटिलताको आधारमा अनुरोधहरूलाई सबैभन्दा उपयुक्त मोडेलहरूमा मार्गनिर्देश गर्न LLM/SLM वा सर्भरलेस फङ्क्शन प्रयोग गर्न सक्नुहुन्छ। यसले लागत घटाउन मद्दत गर्छ र साथै सही कार्यहरूमा प्रदर्शन सुनिश्चित गर्छ। उदाहरणका लागि, सरल प्रश्नहरूलाई साना, छिटो मोडेलहरूमा राउट गर्नुहोस्, र महँगो ठूलो मोडेलहरू केवल जटिल तर्कका लागि मात्र प्रयोग गर्नुहोस्।
प्रतिक्रियाहरू क्यास गर्ने: सामान्य अनुरोधहरू र कार्यहरू पहिचान गरेर ती प्रतिक्रियाहरूलाई तपाईंको एजेन्टिक प्रणालीमा जाने अघि नै उपलब्ध गराउनु समान अनुरोधहरूको मात्रा घटाउने राम्रो तरिका हो। तपाईं आधारभूत AI मोडेलहरू प्रयोग गरी एउटा प्रवाह लागू गरी अनुरोध कति समान छ भनेर क्यास गरिएका अनुरोधहरूसँग तुलना पनि गर्न सक्नुहुन्छ। यो रणनीतिले बारम्बार सोधिने प्रश्नहरू वा सामान्य कार्यप्रवाहहरूको लागि लागत उल्लेख्य रूपमा घटाउन सक्छ।
In the example notebook of this section, we’ll see examples of how we can use observability tools to monitor and evaluate our agent.
Join the Microsoft Foundry Discord to meet with other learners, attend office hours and get your AI Agents questions answered.
अस्वीकरण: यस दस्तावेजलाई एआई अनुवाद सेवा Co-op Translator (https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी शुद्धताको लागि प्रयासरत भए पनि कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। मूल दस्तावेजलाई यसको मूल भाषामा आधिकारिक स्रोत मानिनु पर्छ। महत्त्वपूर्ण जानकारीका लागि पेशेवर मानवीय अनुवाद सिफारिस गरिन्छ। हामी यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि जिम्मेवार हुने छैनौं।