ai-agents-for-beginners

उत्पादनमा AI एजेन्टहरू: अवलोकनयोग्यता र मूल्याङ्कन

AI Agents in Production

AI एजेन्टहरू प्रायोगिक प्रोटोटाइपबाट वास्तविक-विश्वका अनुप्रयोगहरूतर्फ अगाडि बढ्दा, तिनीहरूको व्यवहार बुझ्ने, प्रदर्शन अनुगमन गर्ने, र प्रणालीगत रूपमा तिनीहरूको आउटपुट मूल्याङ्कन गर्ने क्षमता महत्त्वपूर्ण हुन्छ।

शिक्षण लक्ष्यहरू

यस पाठ्यक्रम पूरा गरेपछि, तपाईँले जान्नुहुनेछ/बुझ्न सक्नुहुनेछ:

लक्ष्य भनेको तपाईंलाई “ब्ल्याक बक्स” एजेन्टहरूलाई पारदर्शी, व्यवस्थापनयोग्य, र भरपर्दो प्रणालीहरूमा रूपान्तरण गर्न ज्ञानले सुसज्जित गर्नु हो।

नोट: सुरक्षित र भरोसायोग्य AI एजेन्टहरू परिनियोजित गर्नु महत्त्वपूर्ण छ। कृपया Building Trustworthy AI Agents पाठ पनि हेर्नुहोस्।

ट्रेस र स्प्यानहरू

अवलोकनयोग्यता उपकरणहरू जस्तै Langfuse वा Microsoft Foundry ले प्रायः एजेन्ट रनहरूलाई ट्रेस र स्प्यानहरूको रूपमा प्रतिनिधित्व गर्छन्।

Langfuse मा ट्रेस रूख

अवलोकनयोग्यता बिना, AI एजेन्टले “ब्ल्याक बक्स” जस्तो महसुस हुन सक्छ - यसको आन्तरिक अवस्था र तर्क अपारदर्शी हुन्छन्, जसले समस्याहरू निदान गर्न वा प्रदर्शन अनुकूलन गर्न कठिन बनाउँछ। अवलोकनयोग्यतासँग, एजेन्टहरू “पारदर्शी बक्स” बन्छन्, जुन भरोसा निर्माण गर्न र तिनीहरू इच्छाअनुसार सञ्चालन भएस्‌न सुनिश्चित गर्न अत्यावश्यक पारदर्शिता प्रदान गर्छ।

उत्पादन वातावरणहरूमा अवलोकनयोग्यताले किन महत्त्व राख्छ

AI एजेन्टहरूलाई उत्पादन वातावरणहरूमा सार्दा नयाँ चुनौती र आवश्यकताहरू आउँछन्। अवलोकनयोग्यता अब “रुप मात्र राम्रो-छ” होइन, तर एउटा महत्वपूर्ण क्षमता हो:

ट्र्याक गर्नका लागि प्रमुख मेट्रिक्स

एजेन्ट व्यवहार अनुगमन र बुझ्नका लागि, विभिन्न मेट्रिक्स र संकेतहरू ट्र्याक गर्नुपर्छ। विशिष्ट मेट्रिक्स एजेन्टको उद्देश्यअनुसार फरक हुन सक्छ, तर केही सार्वभौम रूपमा महत्त्वपूर्ण छन्।

यहाँ केहि सामान्य मेट्रिक्स छन् जसलाई अवलोकनयोग्यता उपकरणहरूले अनुगमन गर्छन्:

लेटेन्सी: एजेन्ट कति छिटो प्रतिक्रिया दिन्छ? लामो पर्खाइ समयहरूले प्रयोगकर्ता अनुभवमा नकारात्मक प्रभाव पार्छ। तपाईँले एजेन्ट रनहरू ट्रेस गरेर कार्यहरू र व्यक्तिगत चरणहरूको लागि लेटेन्सी मापन गर्नुपर्छ। उदाहरणका लागि, सबै मोडेल कलहरूका लागि 20 सेकेन्ड लाग्ने एजेन्टलाई छिटो मोडेल प्रयोग गरेर वा मोडेल कलहरू समानान्तर रूपमा चलाएर छिटो बनाउन सकिन्छ।

लागतहरू: प्रति एजेन्ट रन खर्च कति छ? AI एजेन्टहरू LLM कलहरू वा बाह्य API हरूमा निर्भर गर्दछन् जसमा टोकन वा कल अनुसार बिल हुन्छ। बारम्बार उपकरण प्रयोग वा धेरै प्रम्प्टहरूले लागत तीव्र रूपमा बढाउन सक्छ। उदाहरणका लागि, यदि एक एजेन्टले न्यूनतम गुणस्तर सुधारका लागि LLM पाँच पटक कल गर्छ भने, लागत न्यायोचित छ कि छैन वा कलहरूको संख्या घटाउन वा सस्तो मोडेल प्रयोग गर्न सकिन्छ कि छैन भनी मूल्याङ्कन गर्नुपर्छ। वास्तविक-समय अनुगमनले अप्रत्याशित स्पाइकहरू (जस्तै अत्यधिक API लूपहरू गराउने बग) पहिचान गर्न पनि मद्दत गर्न सक्छ।

अनुरोध त्रुटिहरू: एजेन्टले कति अनुरोधहरू असफल गर्‍यो? यसमा API त्रुटिहरू वा असफल उपकरण कलहरू समावेश हुन सक्छ। उत्पादनमा यी विरुद्ध तपाईँको एजेन्टलाई थप मजबूत बनाउन फ्यालब्याक वा रिट्राइहरू सेट अप गर्न सक्नुहुन्छ। जस्तै यदि LLM प्रदायक A डाउन छ भने, B लाई ब्याकअपको रूपमा स्विच गर्नुहोस्।

प्रयोगकर्ता प्रतिक्रिया: प्रत्यक्ष प्रयोगकर्ता मूल्याङ्कन कार्यान्वयनले मूल्यवान अन्तर्दृष्टि प्रदान गर्छ। यसमा स्पष्ट रेटिङहरू (👍ठिक/👎गलत, ⭐1-5 तारा) वा पाठ्य टिप्पणीहरू समावेश हुन सक्छ। निरन्तर नकारात्मक सुझावहरूले चेतावनी दिनुपर्छ कि एजेन्ट अपेक्षा अनुसार काम गरिरहेको छैन।

परोक्ष प्रयोगकर्ता प्रतिक्रिया: स्पष्ट रेटिङ बिना पनि प्रयोगकर्ताको व्यवहारले अप्रत्यक्ष प्रतिक्रिया प्रदान गर्छ। यसमा तुरुन्त प्रश्न पुन:सूचना, पुनः सोधिने प्रश्नहरू वा रिट्राइ बटन क्लिक गर्नु समावेश हुन सक्छ। उदाहरणका लागि, यदि तपाईँले देख्नुहुन्छ कि प्रयोगकर्ताहरू बारम्बार एउटै प्रश्न सोध्छन् भने, यो संकेत हो कि एजेन्ट अपेक्षा अनुसार काम गरिरहेको छैन।

सटीकता: एजेन्टले कति पटक सही वा चाहिने आउटपुट उत्पादन गर्छ? सटीकताको परिभाषाहरू फरक हुन सक्छन् (जस्तै समस्या समाधानको शुद्धता, सूचना पुन:प्राप्ति सटीकता, प्रयोगकर्ता सन्तुष्टि)। सफलताको पहिलो चरण भनेको तपाईँको एजेन्टका लागि सफलता कस्तो देखिन्छ भनी परिभाषित गर्नु हो। तपाईँले स्वचालित जाँचहरू, मूल्याङ्कन स्कोरहरू, वा कार्य पूरा गर्ने लेबलहरू मार्फत सटीकता ट्र्याक गर्न सक्नुहुन्छ। उदाहरणका लागि, ट्रेसहरूलाई “सफल” वा “असफल” भनेर चिन्ह लगाउने।

स्वचालित मूल्याङ्कन मेट्रिक्स: तपाईँले स्वचालित इभाल सेट अप गर्न पनि सक्नुहुन्छ। उदाहरणका लागि, तपाईँले एजेन्टको आउटपुटलाई स्कोर गर्न LLM प्रयोग गर्न सक्नुहुन्छ जस्तै यो उपयोगी छ, सही छ वा हैन। विभिन्न पक्षहरू स्कोर गर्न मद्दत गर्ने केही ओपन सोर्स लाइब्रेरीहरू पनि छन्। जस्तै RAG एजेन्टहरूका लागि RAGAS वा हानिकारक भाषा वा प्रोम्ट इन्जेक्सन पत्ता लगाउन LLM Guard

व्यवहारमा, यी मेट्रिक्सहरूको संयोजनले AI एजेन्टको स्वास्थ्यको सबैभन्दा राम्रो कवरेज दिन्छ। यस अध्यायकको उदाहरण नोटबुक मा हामीले यी मेट्रिक्स वास्तविक उदाहरणहरूमा कस्तो देखिन्छ भन्ने देखाउनेछौं तर पहिले, हामीले एउटा सामान्य मूल्याङ्कन कार्यप्रवाह कस्तो देखिन्छ भन्ने सिक्नेछौं।

आफ्नो एजेन्टलाई इन्स्ट्रुमेन्ट गर्नुहोस्

ट्रेसिङ डेटा सङ्कलन गर्न, तपाईँले आफ्नो कोडलाई इन्स्ट्रुमेन्ट गर्न आवश्यक छ। लक्ष्य भनेको एजेन्ट कोडलाई यस्ता ट्रेस र मेट्रिक्स उत्सर्जन गर्न इन्स्ट्रुमेन्ट गर्नु हो जुन अवलोकनयोग्यता प्लेटफर्मले कैद, प्रक्रिया, र दृश्यीकृत गर्न सक्छ।

OpenTelemetry (OTel): OpenTelemetry LLM अवलोकनयोग्यता लागि उद्योग मानकको रूपमा उदाएको छ। यसले टेलिमेट्री डेटा उत्पन्न, सङ्कलन, र निर्यात गर्नका लागि API, SDK, र उपकरणहरूको सेट प्रदान गर्छ।

धेरै इन्स्ट्रुमेन्टेसन लाइब्रेरीहरू छन् जसले विद्यमान एजेन्ट फ्रेमवर्कहरूलाई र्याप गर्छन् र OpenTelemetry स्प्यानहरूलाई अवलोकनयोग्यता उपकरणमा निर्यात गर्न सजिलो बनाउँछन्। तल AutoGen एजेन्टलाई OpenLit instrumentation library सँग इन्स्ट्रुमेन्ट गर्ने उदाहरण छ:

import openlit

openlit.init(tracer = langfuse._otel_tracer, disable_batch = True)

यस अध्यायको उदाहरण नोटबुक ले तपाईंको AutoGen एजेन्टलाई कसरी इन्स्ट्रुमेन्ट गर्ने देखाउनेछ।

म्यानुअल स्प्यान सिर्जना: इन्स्ट्रुमेन्टेसन लाइब्रेरीहरूले राम्रो आधाररेखा प्रदान गर्दा पनि, प्रायः थप विस्तृत वा कस्टम जानकारी आवश्यक पर्ने केसहरू हुन्छन्। तपाईँ म्यानुअल रूपमा स्प्यानहरू सिर्जना गरेर कस्टम एप्लिकेशन तर्क थप्न सक्नुहुन्छ। अझ महत्वपूर्ण कुरा, यीले स्वतः वा म्यानुअल रूपमा सिर्जना गरिएका स्प्यानहरूलाई कस्टम विशेषताहरू (ट्याग वा मेटाडाटा भनिने) सँग समृद्ध गर्न सक्छन्। यी विशेषताहरूमा व्यावसायिक-विशेष डेटा, मध्यवर्ती गणना, वा डिबगिङ वा विश्लेषणको लागि उपयोगी हुन सक्ने कुनै पनि सन्दर्भ समावेश हुन सक्छ, जस्तै user_id, session_id, वा model_version

Langfuse Python SDK सँग ट्रेस र स्प्यानहरू म्यानुअल रूपमा सिर्जना गर्ने उदाहरण:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

एजेन्ट मूल्याङ्कन

अवलोकनयोग्यताले हामीलाई मेट्रिक्स दिन्छ, तर मूल्याङ्कन भनेको ती डाटाहरू विश्लेषण गर्ने (र परीक्षणहरू प्रदर्शन गर्ने) प्रक्रिया हो जसले निर्धारण गर्छ कि AI एजेन्ट कति राम्रोसँग प्रदर्शन गरिरहेको छ र यसलाई कसरी सुधार गर्न सकिन्छ। अर्कोतर्फ, ती ट्रेस र मेट्रिक्स पाएपछि, कसरी तपाइँले तिनीहरूलाई एजेन्टको मूल्याङ्कन गर्दा र निर्णयहरू लिन प्रयोग गर्नुहुन्छ?

नियमित मूल्याङ्कन महत्त्वपूर्ण छ किनकि AI एजेन्टहरू प्रायः गैर-निर्धारित हुन्छन् र विकास (अपडेटहरू वा मोडेल व्यवहार ड्रिफ्ट) हुन सक्छन् – मूल्याङ्कन बिना, तपाइँले थाह पाउने छैन कि तपाइँको “सम्झदार एजेन्ट” साँच्चिकै राम्रो काम गरिरहेको छ कि छैन वा यसको प्रदर्शन घटेको छ कि छैन।

एजेन्टहरूको लागि दुई प्रकारका मूल्याङ्कनहरू हुन्छन्: अनलाइन मूल्याङ्कनअफलाइन मूल्याङ्कन। दुवै मूल्यवान छन् र एकअर्कालाई पूरक गर्छन्। हामी सामान्यतया अफलाइन मूल्याङ्कनबाट सुरु गर्छौं, किनकि यो कुनै पनि एजेन्टलाई परिनियोजन गर्नु अघि न्यूनतम आवश्यक कदम हो।

अफलाइन मूल्याङ्कन

Langfuse मा डेटासेट आइटमहरू

यसमा एजेन्टलाई नियन्त्रण गरिएको सेटिङमा मूल्याङ्कन गर्ने समावेश हुन्छ, प्रायः परीक्षण डेटासेटहरू प्रयोग गरेर, प्रत्यक्ष प्रयोगकर्ताको प्रश्नहरू होइन। तपाईँ क्युरेटेड डेटासेटहरू प्रयोग गर्नुहुन्छ जहाँ तपाईँलाई अपेक्षित आउटपुट वा सही व्यवहार थाहा हुन्छ, र त्यसपछि आफ्नो एजेन्टलाई तीमा चलाउनुहुन्छ।

उदाहरणका लागि, यदि तपाईँले गणित शब्द-समस्या एजेन्ट बनाउनु भएको छ भने, तपाईंसँग थाहा भएको उत्तरहरू भएका 100 समस्याहरूको परीक्षण डेटासेट हुन सक्छ। अफलाइन मूल्याङ्कन प्रायः विकासको क्रममा गरिन्छ (र CI/CD पाइपलाइनको भाग हुन सक्छ) ताकि सुधारहरू जाँच्न वा रिग्रेसनहरूबाट जोगिन सकियोस्। फाइदा यो हो कि यो दोहर्याउन मिल्ने र स्पष्ट सटीकता मेट्रिक्स पाइने हुन्छ किनकि तपाइँसँग ग्राउण्ड ट्रुथ हुन्छ। तपाईँले प्रयोगकर्ता प्रश्नहरूको नक्कली सिमुलेसन गर्न र एजेन्टका प्रतिक्रियाहरूलाई आदर्श उत्तरहरूसँग तुलनात्मक रूपमा मापन गर्न सक्नुहुन्छ वा माथि वर्णन गरिएका स्वचालित मेट्रिक्सहरू प्रयोग गर्न सक्नुहुन्छ।

अफलाइन इभलको मुख्य चुनौती भनेको तपाईँको परीक्षण डेटासेट व्यापक र प्रासंगिक रहिरहोस् सुनिश्चित गर्नु हो – एजेन्ट स्थिर परीक्षण सेटमा राम्रो प्रदर्शन गर्न सक्छ तर उत्पादनमा निकै फरक प्रश्नहरू सामना गर्न सक्छ। त्यसैले, तपाइँले परीक्षण सेटहरू नयाँ एज किनारमाथि केसहरू र वास्तविक-विश्व परिदृश्यहरू प्रतिबिम्बित गर्ने उदाहरणहरूसँग अद्यावधिक राख्नुपर्छ। साना “स्मोक टेस्ट” केसहरूको मिश्रण र ठूला मूल्याङ्कन सेटहरू उपयोगी हुन्छन्: छिटो जाँचका लागि साना सेटहरू र विस्तृत प्रदर्शन मेट्रिक्सका लागि ठूला सेटहरू।

अनलाइन मूल्याङ्कन

अवलोकनयोग्यता मेट्रिक्स अवलोकन

यसले एउटा जीवित, वास्तविक-विश्व वातावरणमा, अर्थात् उत्पादनमा वास्तविक प्रयोगमा एजेन्टलाई मूल्याङ्कन गर्ने कुरा जनाउँछ। अनलाइन मूल्याङ्कनले वास्तविक प्रयोगकर्ता अन्तरक्रियाहरूमा एजेन्टको प्रदर्शन अनुगमन र निरन्तर विश्लेषण समावेश गर्छ।

उदाहरणका लागि, तपाईँले सफलताको दर, प्रयोगकर्ता सन्तुष्टि स्कोरहरू, वा अन्य मेट्रिक्सहरू लाई जीवित ट्राफिकमा ट्र्याक गर्न सक्नुहुन्छ। अनलाइन मूल्याङ्कनको फाइदा यो हो कि यसले तपाइँले ल्याब सेटिङमा अनुमान नगरेका चीजहरू समात्छ – तपाइँ मोडेल ड्रिफ्ट समयसँगै कसरी हुन्छ हेर्न सक्नुहुन्छ (यदि इनपुट नमूनाहरू बदलिँदा एजेन्टको प्रभावकारिता घट्छ) र अप्रत्याशित प्रश्न वा परिस्थितिहरू पत्ता लगाउन सक्नुहुन्छ जुन तपाइँको परीक्षण डाटामा थिएनन्। यसले वास्तविक संसारमा एजेन्ट कसरी व्यवहार गर्छ भन्ने साँचो चित्र प्रदान गर्छ।

अनलाइन मूल्याङ्कनले प्रायः परोक्ष र प्रत्यक्ष प्रयोगकर्ता प्रतिक्रिया सङ्कलन समावेश गर्छ, र सम्भवतः श्याडो टेस्ट वा A/B टेस्टहरू चलाउन सक्छ (जहाँ नयाँ संस्करण पुरानोको सँगै समानान्तर रूपमा चल्छ तुलना गर्न)। चुनौती भनेको जीवित अन्तरक्रियाहरूका लागि भरपर्दो लेबल वा स्कोर प्राप्त गर्न गाह्रो हुन सक्छ – तपाइँ प्रयोगकर्ता फिडब्याक वा डाउनस्ट्रीम मेट्रिक्समा निर्भर हुन सक्नुहुन्छ (जस्तै प्रयोगकर्ताले परिणाम क्लिक गर्‍यो कि गरेन)।

दुवैको संयोजन

अनलाइन र अफलाइन मूल्याङ्कन परस्पर विरोधी होइनन्; तिनीहरू अत्यधिक पूरक छन्। अनलाइन अनुगमनबाट प्राप्त अन्तर्दृष्टिहरू (जस्तै, नयाँ प्रकारका प्रयोगकर्ता प्रश्नहरू जहाँ एजेन्टले खराब काम गरिरहेको छ) लाई प्रयोग गरेर अफलाइन टेस्ट डेटासेटलाई समृद्ध र सुधार गर्न प्रयोग गर्न सकिन्छ। उल्टो रूपमा, अफलाइन परीक्षणहरूमा राम्रो प्रदर्शन गर्ने एजेन्टहरूलाई अनलाइनमा अधिक विश्वस्तताका साथ परिनियोजन र अनुगमन गर्न सकिन्छ।

वास्तवमा, धेरै टोलीहरूले एउटा लूप अपनाउने गर्दछन्:

अफलाइनमा मूल्याङ्कन गर्नुहोस् -> परिनियोजन गर्नुहोस् -> अनलाइन अनुगमन गर्नुहोस् -> नयाँ असफल केसहरू सङ्कलन गर्नुहोस् -> अफलाइन डेटासेटमा थप्नुहोस् -> एजेन्ट परिष्कृत गर्नुहोस् -> पुनरावृत्ति गर्नुहोस्

सामान्य समस्याहरू

एजेन्टहरूलाई उत्पादनमा परिनियोजन गर्दा, तपाईँले विभिन्न चुनौतीहरू सामना गर्न सक्नुहुन्छ। यहाँ केही सामान्य समस्याहरू र तिनीहरूको सम्भावित समाधानहरू छन्:

समस्या सम्भावित समाधान
AI एजेन्टले कार्यहरू सुसंगत रूपमा प्रदर्शन गरिरहेको छैन - AI एजेन्टलाई दिइएको प्रम्प्ट परिष्कृत गर्नुहोस्; उद्देश्यहरू स्पष्ट राख्नुहोस्।
- कार्यहरूलाई उप-कार्यहरूमा विभाजन गरी बहु एजेन्टहरूले ह्यान्डल गर्दा मद्दत पुग्छ कि पर्दैन पहिचान गर्नुहोस्।
AI एजेन्ट लगातार लूपहरूमा फसिरहेको छ - सुनिश्चित गर्नुहोस् कि तपाइँसँग स्पष्ट समापन सर्तहरू छन् ताकि एजेन्टलाई प्रक्रियालाई कहिले रोक्ने थाहा होस्।
- तर्क र योजना आवश्यक पर्ने जटिल कार्यहरूको लागि, ती कार्यहरूको लागि विशेषीकृत ठूलो मोडेल प्रयोग गर्नुहोस्।
AI एजेन्टका उपकरण कलहरू राम्रोसँग प्रदर्शन गरिरहेको छैन - उपकरणको आउटपुटलाई एजेन्ट प्रणाली बाहिर परीक्षण र मान्य गर्नुहोस्।
- परिभाषित पारामिटरहरू, प्रम्प्टहरू, र उपकरणहरूको नामकरण परिष्कृत गर्नुहोस्।
बहु-एजेन्ट प्रणाली सुसंगत रूपमा प्रदर्शन गरिरहेको छैन - प्रत्येक एजेन्टलाई दिइएका प्रम्प्टहरू परिष्कृत गर्नुहोस् ताकि ती विशिष्ट र एकअर्काबाट भिन्न छन् भन्ने सुनिश्चित होस्।
- कुन एजेन्ट सही हो भनेर निर्णय गर्न “राउटिङ” वा कन्ट्रोलर एजेन्ट प्रयोग गरेर पदानुक्रमिक प्रणाली बनाउनुहोस्।

यीमध्ये धेरै समस्याहरू अवलोकनयोग्यता लागू हुँदा अझ प्रभावकारी ढंगले पहिचान गर्न सकिन्छ। पहिले चर्चा गरेका ट्रेस र मेट्रिक्सहरूले एजेन्ट कार्यप्रवाहको कुन भागमा समस्या भइरहेको छ भन्ने ठ्याक्कै संकेत गर्छन्, जसले डिबगिङ र अनुकूलनलाई धेरै प्रभावकारी बनाउँछ।

लागत व्यवस्थापन

यहाँ उत्पादनमा AI एजेण्टहरू परिनियोजन गर्दा लाग्ने लागतहरू व्यवस्थापन गर्नका लागि केही रणनीतिहरू छन्:

Using Smaller Models: Small Language Models (SLMs) केही एजेण्टसम्बन्धी प्रयोग-केसहरूमा राम्रो प्रदर्शन गर्न सक्छन् र लागतहरू महत्वपूर्ण रूपमा घटाउँछन्। पहिले उल्लेख गरिसकेझैं, ठूलो मोडेलहरूसँग प्रदर्शन तुलना गर्न र निर्धारण गर्नको लागि मूल्यांकन प्रणाली बनाउनु नै SLM ले तपाईंको प्रयोग-केसमा कत्ति राम्रो प्रदर्शन गर्नेछ भन्ने बुझ्नको उत्तम तरिका हो। आशय वर्गीकरण (intent classification) वा प्यारामिटर निकाश (parameter extraction) जस्ता सरल कार्यहरूको लागि SLMs प्रयोग गर्ने विचार गर्नुहोस्, जबकि जटिल तर्कका लागि ठूलो मोडेलहरू सुरक्षित राख्नुहोस्।

Using a Router Model: समान रणनीति भनेको विभिन्न मोडेल र आकारहरूको विविधता प्रयोग गर्नु हो। तपाईं जटिलताको आधारमा अनुरोधहरूलाई सबैभन्दा उपयुक्त मोडेलहरूमा रुट गर्न LLM/SLM वा serverless function प्रयोग गर्न सक्नुहुन्छ। यसले लागत घटाउन मद्दत गर्नेछ भने सही कार्यहरूमा प्रदर्शन सुनिश्चित पनि गर्नेछ। उदाहरणका लागि, सरल प्रश्नहरूलाई साना, छिटो मोडेलहरूमा रुट गर्नुहोस्, र जटिल तर्कका लागि मात्र महँगो ठूलो मोडेलहरू प्रयोग गर्नुहोस्।

Caching Responses: सामान्य अनुरोधहरू र कार्यहरू पहिचान गरी तिनीहरूको जवाफहरू तपाईंको एजेण्टिक प्रणालीमा नपुग्दै अघि नै प्रदान गर्नु समान अनुरोधहरूको परिमाण घटाउने राम्रो तरिका हो। तपाईं थप आधारभूत AI मोडेलहरू प्रयोग गरी अनुरोध कति समान छ भन्ने पहिचान गर्ने प्रवाह पनि लागू गर्न सक्नुहुन्छ। बारम्बार सोधिने प्रश्नहरू वा सामान्य वर्कफ्लोहरूका लागि यो रणनीतिले लागत उल्लेखनीय रूपमा घटाउन सक्छ।

Lets see how this works in practice

In the यस खण्डको उदाहरण नोटबुक, हामीले कसरी observability उपकरणहरू प्रयोग गरी हाम्रो एजेण्टलाई अनुगमन र मूल्याङ्कन गर्न सकिन्छ भन्ने उदाहरणहरू देख्नेछौं।

Got More Questions about AI Agents in Production?

Join the Microsoft Foundry Discord to meet with other learners, attend office hours and get your AI Agents questions answered.

Previous Lesson

मेटाकग्निसन डिजाइन ढाँचा

Next Lesson

एजेण्टिक प्रोटोकलहरू


अस्वीकरण: यस दस्तावेजलाई एआई अनुवाद सेवा Co-op Translator (https://github.com/Azure/co-op-translator) प्रयोग गरी अनुवाद गरिएको हो। हामी शुद्धताका लागि प्रयासरत छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटि वा अशुद्धता हुनसक्छ। मूल दस्तावेजलाई यसको मूल भाषामा नै आधिकारिक स्रोत मानिनु पर्छ। संवेदनशील वा महत्वपूर्ण जानकारीको लागि पेशेवर मानव अनुवाद सिफारिश गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि हामी जिम्मेवार छैनौं।