ai-agents-for-beginners

उत्पादनमा AI एजेन्टहरू: अवलोकन र मूल्याङ्कन

जब AI एजेन्टहरू प्रायोगिक प्रोटोटाइपबाट वास्तविक-विश्व अनुप्रयोगतर्फ सर्छन्, तिनीहरूको व्यवहार बुझ्ने, प्रदर्शन अनुगमन गर्ने, र तिनका आउटपुटहरू व्यवस्थित रूपमा मूल्याङ्कन गर्ने क्षमता महत्त्वपूर्ण हुन्छ।

सिक्ने लक्ष्यहरू

यस पाठलाई पूरा गरेपछि, तपाईं यी कुराहरू कसरी गर्ने/बुझ्ने जान्नु हुनेछ:

एजेन्ट अवलोकन र मूल्याङ्कनका मूल अवधारणाहरू
एजेन्टहरूको प्रदर्शन, लागत, र प्रभावकारिता सुधार गर्ने प्रविधिहरू
के र कसरी तपाईंले आफ्नो AI एजेन्टहरूलाई व्यवस्थित रूपमा मूल्याङ्कन गर्ने
उत्पादनमा AI एजेन्ट तैनाथ गर्दा लागत कसरी नियन्त्रण गर्ने
Microsoft Agent Framework प्रयोग गरी बनाइएका एजेन्टहरूलाई कसरी इन्स्ट्रुमेन्ट गर्ने

लक्ष्य भनेको तपाईंलाई “ब्ल्याक बक्स” एजेन्टहरूलाई पारदर्शी, व्यवस्थापनयोग्य, र भरपर्दो प्रणालीहरूमा रूपान्तरण गर्न आवश्यक ज्ञान प्रदान गर्नु हो।

नोट: सुरक्षित र विश्वासयोग्य AI एजेन्टहरू तैनाथ गर्नु महत्त्वपूर्ण छ। Building Trustworthy AI Agents पाठ पनि हेर्नुहोस्।

ट्रेस र स्प्यानहरू

Langfuse वा Microsoft Foundry जस्ता अवलोकन उपकरणहरूले सामान्यतया एजेन्ट रनहरूलाई ट्रेस र स्प्यानका रूपमा प्रतिनिधित्व गर्दछन्।

ट्रेस ले एक पूरा एजेन्ट कार्य सुरु देखि समाप्ति सम्म प्रतिनिधित्व गर्छ (जस्तै प्रयोगकर्ताको क्वेरी ह्यान्डल गर्ने जस्तो)।
स्प्यानहरू ट्रेसभित्रका व्यक्तिगत कदमहरू हुन् (जस्तै भाषा मोडेल कल वा डेटा पुनःप्राप्ति)।

Trace tree in Langfuse

अवलोकनविना, AI एजेन्ट “ब्ल्याक बक्स” जस्तो महसुस हुन सक्छ — यसको आन्तरिक अवस्था र तर्क अस्पष्ट हुन्छ, जसले समस्याहरू निदान गर्न वा प्रदर्शन अनुकूलन गर्न कठिनाई पुर्‍याउँछ। अवलोकनसँग, एजेन्टहरू “ग्लास बक्स” बन्छन्, पारदर्शिता प्रदान गर्छन् जुन विश्वास निर्माण र तिनीहरू अपेक्षित रूपमा काम गरिरहेको सुनिश्चित गर्न अत्यावश्यक हुन्छ।

उत्पादन वातावरणहरूमा अवलोकन किन महत्वपूर्ण छ

AI एजेन्टहरूलाई उत्पादन वातावरणमा सार्दा नयाँ चुनौतीहरू र आवश्यकताहरू देखा पर्छन्। अवलोकन अब “राम्रो-to-have” होइन, तर एउटा निर्णायक क्षमता हो:

डिबगिङ र रूट-कॉज विश्लेषण: जब एजेन्ट असफल हुन्छ वा अनपेक्षित आउटपुट उत्पादन गर्छ, अवलोकन उपकरणहरूले त्रुटिको स्रोत पहिचान गर्न आवश्यक ट्रेसहरू प्रदान गर्छन्। यो विशेष गरी जटिल एजेन्टहरूमा महत्त्वपूर्ण हुन्छ जुन बहु LLM कल, उपकरण अन्तरक्रिया, र सशर्त लॉजिक समावेश गर्न सक्छ।
लेटेन्सी र लागत व्यवस्थापन: AI एजेन्टहरूले प्रायः टोकन वा कलको आधारमा बिल गरिने LLMs र अन्य बाह्य APIs मा निर्भर गर्दछन्। अवलोकनले यी कलहरूको ठीक ट्र्याकिङ अनुमति दिन्छ, जसले अत्यधिक ढिलो वा महँगो अपरेसनहरू पहिचान गर्न मद्दत गर्छ। यसले टोलीहरूलाई प्राँप्टहरू अनुकूलन गर्न, थप कुशल मोडेलहरूको चयन गर्न, वा अपरेसनल लागत व्यवस्थापन र राम्रो प्रयोगकर्ता अनुभव सुनिश्चित गर्न वर्कफ्लो पुन:डिजाइन गर्न सक्षम बनाउँछ।
विश्वास, सुरक्षा, र अनुपालन: धेरै अनुप्रयोगहरूमा, एजेन्टहरूले सुरक्षित र नैतिक रूपमा व्यवहार गरिरहेको सुनिश्चित गर्नु महत्त्वपूर्ण हुन्छ। अवलोकनले एजेन्ट क्रियाकलाप र निर्णयहरूको अडिट ट्रेल प्रदान गर्दछ। यसलाई प्रॉम्प्ट इन्जेक्सन, हानिकारक सामग्रीको उत्पादन, वा व्यक्तिगत रूपमा पहिचानयोग्य जानकारी (PII) को दुरुपयोग जस्ता समस्याहरू पत्ता लगाउन र न्यूनीकरण गर्न प्रयोग गर्न सकिन्छ। उदाहरणका लागि, तपाईं ट्रेसहरू समीक्षा गरेर बुझ्न सक्नुहुन्छ किन एजेन्टले कुनै विशेष प्रतिक्रिया दियो वा कुनै विशिष्ट उपकरण प्रयोग गर्यो।
निरन्तर सुधार लूपहरू: अवलोकन डेटा पुनरावृत्ति विकास प्रक्रियाको आधार हो। एजेन्टहरूले वास्तविक संसारमा कसरी प्रदर्शन गर्छन् भन्ने अनुगमन गरेर, टोलीहरूले सुधारका क्षेत्रहरू पहिचान गर्न, मोडेलहरू फाइन-ट्युनिङका लागि डेटा सङ्कलन गर्न, र परिवर्तनहरूको प्रभाव मान्य गर्न सक्छन्। यसले एउटा फिडब्याक लूप सिर्जना गर्छ जहाँ अनलाइन मूल्याङ्कनबाट प्राप्त उत्पादन अन्तर्दृष्टिहरूले अफलाइन प्रयोग र परिष्करणलाई सूचित गर्छ, जसले क्रमिक रूपमा एजेन्ट प्रदर्शन सुधार गर्छ।

ट्र्याक गर्नका लागि प्रमुख मेट्रिक्सहरू

एजेन्ट व्यवहार अनुगमन र बुझ्नका लागि, विभिन्न मेट्रिक्स र संकेतहरू ट्र्याक गर्नुपर्छ। एजेन्टको उद्देश्यमा आधारित मेट्रिक्स फरक हुन सक्छन्, तर केही सार्वभौमिक रूपमा महत्त्वपूर्ण छन्।

यहाँ अवलोकन उपकरणहरूले सामान्यतया अनुगमन गर्ने केही सामान्य मेट्रिक्सहरू छन्:

लेटेन्सी: एजेन्ट कति छिटो प्रतिक्रिया गर्छ? लामो प्रतीक्षा समयले प्रयोगकर्ता अनुभवमा नकारात्मक प्रभाव पार्छ। तपाईंले एजेन्ट रनहरू ट्रेस गरेर कार्यहरू र व्यक्तिगत कदमहरूको लेटेन्सी मापन गर्नुपर्छ। उदाहरणका लागि, यदि एउटा एजेन्टले सबै मोडेल कलहरूका लागि 20 सेकेन्ड लिन्छ भने, छिटो मोडेल प्रयोग गरेर वा मोडेल कलहरू समानान्तर चलाएर यसलाई तीव्र बनाउन सकिन्छ।

लागतहरू: प्रति एजेन्ट रन कति खर्च लाग्छ? AI एजेन्टहरू LLM कलहरू वा बाह्य API हरूमा निर्भर गर्दछन्। बारम्बार उपकरण प्रयोग वा बहु प्राँप्टहरूले लागत द्रुत रूपमा बढाउन सक्छ। उदाहरणका लागि, यदि एजेन्टले सानातिना गुणस्तर सुधारका लागि LLM पाँच पटक कल गर्छ भने, लागत न्यायसंगत छ कि छैन मूल्याङ्कन गर्नुपर्ने हुन्छ वा कलहरूको संख्या घटाउन वा सस्तो मोडेल प्रयोग गर्न सकिन्छ। वास्तविक-समय अनुगमनले अनपेक्षित स्पाइक्स (उदाहरण: बगहरू जसले अत्यधिक API लूप्स सिर्जना गर्छ) पत्ता लगाउन पनि मद्दत गर्छ।

अनुरोध त्रुटिहरू: कति अनुरोधहरू एजेन्टले असफल गर्यो? यसमा API त्रुटिहरू वा उपकरण कल असफलहरू समावेश हुन सक्छ। उत्पादनमा यीका बिरुद्धमा आफ्नो एजेन्टलाई थप मजबुत बनाउन, तपाईंले फालब्याक वा रिट्राइज सेटअप गर्न सक्नुहुन्छ। जस्तै, यदि LLM प्रदायक A डाउन छ भने, तपाईं ब्याकअपको रूपमा LLM प्रदायक B मा स्विच गर्नुहुन्छ।

प्रयोगकर्ता फिडब्याक: प्रत्यक्ष प्रयोगकर्ता मूल्याङ्कनहरू अमूल्य अन्तर्दृष्टि प्रदान गर्छन्। यसमा स्पष्ट रेटिङहरू (👍thumbs-up/👎down, ⭐1-5 स्टार) वा पाठ्य टिप्पणीहरू समावेश हुन सक्छ। लगातार नकारात्मक फिडब्याकले तपाईंलाई सचेत गराउनुपर्छ कि एजेन्ट अपेक्षित रूपमा काम गरिरहेको छैन।

अप्रत्यक्ष प्रयोगकर्ता फिडब्याक: प्रयोगकर्ता व्यवहारहरूले स्पष्ट रेटिङ बिना पनि अप्रत्यक्ष फिडब्याक प्रदान गर्छ। यसमा तत्काल प्रश्न पुनःफ्रेज़िङ, बारम्बार सोधपुछ वा रिट्राइ बटन क्लिक गर्नेजस्ता व्यवहारहरू समावेश हुन सक्छ। उदाहरणका लागि, यदि प्रयोगकर्ताहरूले बारम्बार एउटै प्रश्न सोधिरहेको देख्नुहुन्छ भने, यो संकेत हो कि एजेन्ट अपेक्षित रूपमा काम गरिरहेको छैन।

सहीपन (Accuracy): एजेन्टले कति पटक सही वा इच्छित आउटपुट उत्पादन गर्छ? सहीपन परिभाषाहरू फरक हुन सक्छन् (जस्तै समस्या समाधान सहीपन, जानकारी पुनःप्राप्ति सहीपन, प्रयोगकर्ता सन्तुष्टि)। पहिलो कदम भनेको तपाईंको एजेन्टका लागि सफलता कस्तो देखिन्छ परिभाषित गर्नु हो। तपाईंले स्वत: जाँचहरू, मूल्याङ्कन स्कोरहरू, वा कार्य पूरा लेबलहरू मार्फत सहीपन ट्र्याक गर्न सक्नुहुन्छ। उदाहरणका लागि, ट्रेसहरूलाई “सफल” वा “असफल” रूपमा मार्क गर्नु।

स्वचालित मूल्याङ्कन मेट्रिक्स: तपाईंले स्वचालित इवाल सेटअप पनि गर्न सक्नुहुन्छ। उदाहरणका लागि, तपाईंले एजेण्टको आउटपुटलाई स्कोर गर्न LLM प्रयोग गर्न सक्नुहुन्छ जस्तै यो उपयोगी छ, सही छ, वा होइन भनेर। त्यहाँ त्यस्ता विभिन्न पक्षहरू स्कोर गर्न मद्दत गर्ने केहि खुला स्रोत पुस्तकालयहरू पनि छन्। जस्तै RAG एजेन्टहरूको लागि RAGAS वा हानिकारक भाषा वा प्रॉम्प्ट इन्जेक्सन पत्ता लगाउन LLM Guard।

व्यवहारमा, यी मेट्रिक्सहरूको संयोजनले AI एजेन्टको स्वास्थ्यको राम्रो कभरेज दिन्छ। यस अध्यायको example notebook मा हामी वास्तविक उदाहरणहरूमा यी मेट्रिक्सहरू कस्तो देखिन्छन् देखाउनेछौं तर पहिले, हामीले सामान्य मूल्याङ्कन वर्कफ्लो कस्तो देखिन्छ भन्ने सिक्नेछौं।

आफ्नो एजेन्ट इन्स्ट्रुमेन्ट गर्नुहोस्

ट्रेसिङ डेटा सङ्कलन गर्नका लागि, तपाईंले आफ्नो कोड इन्स्ट्रुमेन्ट गर्न आवश्यक पर्दछ। लक्ष्य भनेको यस्तो इन्स्ट्रुमेन्टेशन गर्नु हो जसले ट्रेस र मेट्रिक्स निकालोस् जसलाई कुनै अवलोकन प्लेटफर्मले क्याप्चर, प्रक्रिया, र भिजुअलाइज गर्न सकोस्।

OpenTelemetry (OTel): OpenTelemetry LLM अवलोकनका लागि एउटा उद्योग मानकको रूपमा उदाएको छ। यसले टेलिमेट्री डेटा उत्पन्न, सङ्कलन, र निर्यात गर्ने API, SDK र उपकरणहरूको सेट प्रदान गर्छ।

धेरै इन्स्ट्रुमेन्टेसन लाइब्रेरीहरूले अवस्थित एजेन्ट फ्रेमवर्कहरूलाई र्याप गरेर OpenTelemetry स्प्यानहरूलाई अवलोकन उपकरणतर्फ निर्यात गर्न सजिलो बनाउँछन्। Microsoft Agent Framework ले OpenTelemetry सँग नेटिभ रूपमा एकीकृत हुन्छ। तल MAF एजेन्ट इन्स्ट्रुमेन्ट गर्ने एक उदाहरण छ:

from agent_framework.observability import get_tracer, get_meter

tracer = get_tracer()
meter = get_meter()

with tracer.start_as_current_span("agent_run"):
    # एजेन्टको कार्यान्वयन स्वचालित रूपमा ट्रेस गरिन्छ
    pass

यस अध्यायको example notebook ले तपाईंको MAF एजेन्टलाई कसरी इन्स्ट्रुमेन्ट गर्ने देखाउनेछ।

म्यानुअल स्प्यान सिर्जना: इन्स्ट्रुमेन्टेसन लाइब्रेरीहरूले राम्रो आधाररेखा प्रदान गर्ने भएता पनि, प्रायः त्यहाँ थप विस्तृत वा अनुकूल जानकारी आवश्यक पर्ने अवस्थामा हुन्छ। तपाईं कस्टम एप्लिकेसन लॉजिक थप्न म्यानुअल रूपमा स्प्यानहरू सिर्जना गर्न सक्नुहुन्छ। अझ महत्त्वपूर्ण, तिनीहरूले अटोम्याटिक वा म्यानुअल रूपमा सिर्जना गरिएका स्प्यानहरूलाई कस्टम एट्रिब्युटहरू (ट्यागहरू वा मेटाडाटा भनिने) ले समृद्ध बनाउन सक्छन्। यी एट्रिब्युटहरूमा व्यापार-विशिष्ट डेटा, मध्यवर्ती गणनाहरू, वा डिबगिङ वा विश्लेषणका लागि उपयोगी हुन सक्ने कुनै पनि सन्दर्भ समावेश हुन सक्छ, जस्तै user_id, session_id, वा model_version।

Langfuse Python SDK सँग ट्रेस र स्प्यानहरू म्यानुअल रूपमा सिर्जना गर्ने उदाहरण:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

एजेन्ट मूल्याङ्कन

अवलोकनले हामीलाई मेट्रिक्स दिन्छ, तर मूल्याङ्कन भनेको ती डेटा (र परिक्षणहरू) विश्लेषण गर्ने प्रक्रिया हो जसले निर्धारण गर्छ कि AI एजेन्ट कति राम्रो प्रदर्शन गरिरहेको छ र यसलाई कसरी सुधार्न सकिन्छ। अर्को शब्दमा, तपाईंले ती ट्रेस र मेट्रिक्स पाएपछि, तिनीहरूलाई कसरी प्रयोग गरेर एजेन्टलाई न्याय गर्ने र निर्णयहरू लिनुहुन्छ?

नियमित मूल्याङ्कन महत्त्वपूर्ण छ किनकि AI एजेन्टहरू प्रायः गैर-निर्धारक (non-deterministic) हुन्छन् र अपडेटहरू वा मोडेल व्यवहार ड्रिफ्टका माध्यमबाट विकास हुन सक्छन् – मूल्याङ्कन बिना, तपाईंलाई थाहा नहुन सक्छ कि तपाईंको “स्मार्ट एजेन्ट” वास्तवमै राम्रो काम गरिरहेको छ कि यसको प्रदर्शन घटेको छ।

AI एजेन्टहरूको लागि दुई प्रकारका मूल्याङ्कनहरू छन्: अनलाइन मूल्याङ्कन र अफलाइन मूल्याङ्कन। दुवै मूल्यवान छन्, र एकअर्कालाई पूरक बनाउँछन्। हामी प्रायः अफलाइन मूल्याङ्कनबाट सुरु गर्छौं, किनकि कुनै पनि एजेन्ट तैनाथ गर्नु अघि यो न्यूनतम आवश्यक कदम हो।

अफलाइन मूल्याङ्कन

Dataset items in Langfuse

यसमा नियन्त्रण गरिएको सेटिङमा एजेन्टको मूल्याङ्कन समावेश हुन्छ, सामान्यतया परीक्षण डेटासेटहरू प्रयोग गरेर, लाइभ प्रयोगकर्ता क्वेरीहरू होइन। तपाईंले कुरेट गरिएका डेटासेटहरू प्रयोग गर्नुहुन्छ जहाँ तपाईँलाई अपेक्षित आउटपुट वा सही व्यवहार थाहा हुन्छ, र त्यसपछि आफ्नो एजेन्टलाई तीमा चलाउनुहुन्छ।

उदाहरणका लागि, यदि तपाईंले गणित शब्द-समस्या एजेन्ट बनाउनु भयो भने, तपाईं सँग थाहा भएका उत्तरहरू सहितको 100 समस्याहरूको test dataset हुन सक्छ। अफलाइन मूल्याङ्कन प्रायः विकासको क्रममा गरिन्छ (र CI/CD पाइपलाइन्सको भाग हुन सक्छ) सुधारहरू जाँच्न वा रिग्रेसनहरूबाट जोगिन। फाइदा भनेको यो दोहर्याउन योग्य छ र तपाईंले ग्राउण्ड ट्रुथ भएकोले स्पष्ट सटीकता मेट्रिक्स प्राप्त गर्न सक्नुहुन्छ। तपाईंले प्रयोगकर्ता क्वेरीहरू सिमुलेट गरेर एजेन्टका प्रतिक्रियाहरूलाई आदर्श उत्तरहरूसँग मापन गर्न सक्नुहुन्छ वा माथि वर्णन गरिएका स्वत: मेट्रिक्सहरू प्रयोग गर्न सक्नुहुन्छ।

अफलाइन इवालसँग प्रमुख चुनौती भनेको तपाईंको परीक्षण डेटासेट व्यापक र सान्दर्भिक राख्नु हो – एजेन्टले फिक्स्ड टेस्ट सेटमा राम्रो प्रदर्शन गर्न सक्छ तर उत्पादनमा निकै फरक क्वेरीहरू सामना गर्न सक्छ। त्यसैले, तपाईंले टेस्ट सेटहरूलाई नयाँ एज किनाराका मामिला र वास्तविक-विश्व परिदृश्यहरू प्रतिबिम्बित गर्ने उदाहरणहरू सहित अपडेट राख्नुपर्छ। सानो “स्मोक टेस्ट” केसहरू र ठूला मूल्याङ्कन सेटहरूको मिश्रण उपयोगी हुन्छ: छिटो जाँचहरूको लागि सानो सेट र व्यापक प्रदर्शन मेट्रिक्सका लागि ठूला सेटहरू।

अनलाइन मूल्याङ्कन

Observability metrics overview

यो लाईभ, वास्तविक-विश्व वातावरणमा, अर्थात् उत्पादनमा वास्तविक प्रयोगका समयमा एजेन्टलाई मूल्याङ्कन गर्ने कुरा हो। अनलाइन मूल्याङ्कनले वास्तविक प्रयोगकर्ता अन्तरक्रियाहरूमा एजेन्टको प्रदर्शन अनुगमन र निरन्तर विश्लेषण समावेश गर्छ।

उदाहरणका लागि, तपाईंले सफलताको दर, प्रयोगकर्ता सन्तुष्टि स्कोरहरू, वा लाइभ ट्राफिकमा अन्य मेट्रिक्स ट्र्याक गर्न सक्नुहुन्छ। अनलाइन मूल्याङ्कनको फाइदा भनेको यो प्रयोगशालाको सेटिङमा अनुमान नलगाएको कुराहरू समात्छ – तपाईं मोडेल ड्रिफ्ट समयक्रममा कसरी देखिन्छ भनेर (यदि इनपुट ढाँचाहरू सारिँदा एजेन्टको प्रभावकारिता घट्छ) र परीक्षण डेटामा नभएका अनपेक्षित क्वेरीहरू वा परिस्थितिहरू पत्ता लगाउन सक्नुहुन्छ। यसले जङ्गलमा एजेन्ट कसरी व्यवहार गर्छ भन्ने वास्तविक तस्वीर प्रदान गर्छ।

अनलाइन मूल्याङ्कनले प्रायः अप्रत्यक्ष र स्पष्ट प्रयोगकर्ता फिडब्याक सङ्कलन समावेश गर्छ, र सम्भवतः श्याडो टेस्टहरू वा A/B परीक्षणहरू चलाउन सक्छ (जहाँ नयाँ संस्करण एजेन्ट पुरानोको विरुद्ध तुलना गर्न समानान्तरमा चल्छ)। चुनौती भनेको लाइभ अन्तरक्रियाहरूका लागि भरपर्दो लेबलहरू वा स्कोरहरू प्राप्त गर्न गाह्रो हुन सक्छ – तपाईंले प्रयोगकर्ता फिडब्याक वा डाउनस्ट्रीम मेट्रिक्सहरू (जस्तै प्रयोगकर्ताले नतिजामा क्लिक गर्‍यो कि गरेन) मा निर्भर हुन सक्नुहुन्छ।

दुवैलाई संयुक्त गर्नु

अनलाइन र अफलाइन मूल्याङ्कन परस्पर विरोधी होइनन्; ती अत्यधिक पूरक छन्। अनलाइन अनुगमनबाट प्राप्त अन्तर्दृष्टिहरू (जस्तै जहाँ एजेन्ट खराब प्रदर्शन गर्छ भन्ने नयाँ प्रकारका प्रयोगकर्ता क्वेरीहरू) लाई अफलाइन टेस्ट डेटासेटहरू समृद्ध पार्न र सुधार गर्न प्रयोग गर्न सकिन्छ। उल्टो तर्फ, अफलाइन परीक्षणहरूमा राम्रो प्रदर्शन गर्ने एजेन्टहरूलाई अधिक विश्वसनीय रूपमा तैनाथ गरेर अनलाइनमा अनुगमन गर्न सकिन्छ।

वास्तवमा, धेरै टोलीहरूले यस्तो लूप अपनाउँछन्:

afline मा मूल्याङ्कन गर्नु -> तैनाथ गर्नु -> अनलाइनमा अनुगमन गर्नु -> नयाँ फेलुर केसहरू सङ्कलन गर्नु -> अफलाइन डेटासेटमा थप्नु -> एजेन्ट परिष्कृत गर्नु -> पुनरावृत्ति।

सामान्य समस्याहरू

AI एजेन्टहरूलाई उत्पादनमा तैनाथ गर्दा, तपाईंले विभिन्न चुनौतीहरूको सामना गर्न सक्छ। यहाँ केही सामान्य समस्याहरू र तिनीहरूको सम्भावित समाधानहरू छन्:

समस्या	सम्भावित समाधान
AI एजेन्टले लगातार कामहरू गर्नु हुँदैन	- AI एजेन्टलाई दिइएको प्राँप्ट परिष्कृत गर्नुहोस्; उद्देश्यहरू स्पष्ट राख्नुहोस्। - कुनै बेला कार्यहरूलाई सबटास्कमा विभाजन गरेर र तीलाई बहु एजेन्टहरूले ह्यान्डल गर्दा सहायता पुग्छ कि भनेर पहिचान गर्नुहोस्।
AI एजेन्ट निरन्तर लूपहरूमा फसिरहेको छ	- सुनिश्चित गर्नुहोस् कि तपाईंसँग स्पष्ट टर्मिनेशन सर्तहरू र अवस्थाहरू छन् ताकि एजेन्टले कहिले प्रक्रिया रोक्ने थाहा पाओस्। - कारण र योजना आवश्यक पर्ने जटिल कार्यहरूको लागि, तार्किक कार्यहरूको लागि विशेषीकृत ठूलो मोडेल प्रयोग गर्नुहोस्।
AI एजेन्टका उपकरण कलहरू राम्रोसँग प्रदर्शन गर्दैन्	- उपकरणको आउटपुटलाई एजेन्ट प्रणाली बाहिर टेस्ट र मान्य गर्नुहोस्। - परिभाषित प्यारामिटरहरू, प्राँप्टहरू, र उपकरणहरूको नामकरण परिष्कृत गर्नुहोस्।
मल्टि-एजेन्ट प्रणालीले लगातार काम गरिरहेको छैन	- प्रत्येक एजेन्टलाई दिएको प्राँप्टहरू परिष्कृत गर्नुहोस् ताकि तिनीहरू विशिष्ट र एकअर्काबाट पृथक् भए। - कुन एजेन्ट ठिक हो निर्धारण गर्न “राउटिङ” वा कन्ट्रोलर एजेन्ट प्रयोग गरेर हाइरार्किकल सिस्टम बनाउनुहोस्।

यीमध्ये धेरै समस्याहरू अवलोकन भएको अवस्थामा अधिक प्रभावकारी रूपमा पहिचान गर्न सकिन्छ। पहिले छलफल गरिएका ट्रेस र मेट्रिक्सहरूले एजेन्ट वर्कफ्लोको कुन हिस्सा मा समस्या उत्पन्न भइरहेको ठ्याक्कै पत्ता लगाउन मद्दत गर्छ, जसले डिबगिङ र अनुकूलनलाई धेरै कुशल बनाउँछ।

लागत व्यवस्थापन

Here are some strategies to manage the costs of deploying AI agents to production:

सानो मोडेलहरू प्रयोग गर्ने: साना भाषा मोडेलहरू (SLMs) केही एजेन्टिक उपयोग-मामिलाहरूमा राम्रो प्रदर्शन गर्न सक्छन् र लागतलाई उल्लेख्य रूपमा घटाउँछन्। माथि उल्लेख गरेजस्तै, प्रदर्शन तुलना गर्न र निर्धारण गर्नका लागि एउटा मूल्याङ्कन प्रणाली बनाउनु SLM ले तपाईंको उपयोग केसमा कति राम्रो प्रदर्शन गर्छ भन्ने बुझ्नको लागि उत्तम तरिका हो। सरल कार्यहरू जस्तै उद्देश्य वर्गीकरण वा प्यारामिटर निकाल्ने जस्ता कामहरूका लागि SLM प्रयोग गर्ने विचार गर्नुहोस्, र जटिल तर्कका लागि ठूलो मोडेलहरू सुरक्षित राख्नुहोस्।

राउटर मोडेल प्रयोग गर्ने: समान रणनीति भनेको विभिन्न मोडेल र आकारहरूको विविधता प्रयोग गर्नु हो। तपाईं जटिलताको आधारमा अनुरोधहरूलाई सबैभन्दा उपयुक्त मोडेलहरूमा मार्गनिर्देश गर्न LLM/SLM वा सर्भरलेस फङ्क्शन प्रयोग गर्न सक्नुहुन्छ। यसले लागत घटाउन मद्दत गर्छ र साथै सही कार्यहरूमा प्रदर्शन सुनिश्चित गर्छ। उदाहरणका लागि, सरल प्रश्नहरूलाई साना, छिटो मोडेलहरूमा राउट गर्नुहोस्, र महँगो ठूलो मोडेलहरू केवल जटिल तर्कका लागि मात्र प्रयोग गर्नुहोस्।

प्रतिक्रियाहरू क्यास गर्ने: सामान्य अनुरोधहरू र कार्यहरू पहिचान गरेर ती प्रतिक्रियाहरूलाई तपाईंको एजेन्टिक प्रणालीमा जाने अघि नै उपलब्ध गराउनु समान अनुरोधहरूको मात्रा घटाउने राम्रो तरिका हो। तपाईं आधारभूत AI मोडेलहरू प्रयोग गरी एउटा प्रवाह लागू गरी अनुरोध कति समान छ भनेर क्यास गरिएका अनुरोधहरूसँग तुलना पनि गर्न सक्नुहुन्छ। यो रणनीतिले बारम्बार सोधिने प्रश्नहरू वा सामान्य कार्यप्रवाहहरूको लागि लागत उल्लेख्य रूपमा घटाउन सक्छ।

यसले व्यवहारमा कसरी काम गर्छ हेर्नुहोस्

In the example notebook of this section, we’ll see examples of how we can use observability tools to monitor and evaluate our agent.

उत्पादनमा AI एजेन्टहरूबारे थप प्रश्नहरू छन्?

Join the Microsoft Foundry Discord to meet with other learners, attend office hours and get your AI Agents questions answered.

अघिल्लो पाठ

मेटाकग्निशन डिजाइन ढाँचा

अर्को पाठ

एजेन्टिक प्रोटोकलहरू

अस्वीकरण: यस दस्तावेजलाई एआई अनुवाद सेवा Co-op Translator (https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको हो। हामी शुद्धताको लागि प्रयासरत भए पनि कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटि वा अशुद्धता हुन सक्छ। मूल दस्तावेजलाई यसको मूल भाषामा आधिकारिक स्रोत मानिनु पर्छ। महत्त्वपूर्ण जानकारीका लागि पेशेवर मानवीय अनुवाद सिफारिस गरिन्छ। हामी यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याका लागि जिम्मेवार हुने छैनौं।

This site is open source. Improve this page.