AI အေးဂျင့်များသည် စမ်းသပ်ပုံစံမှ တကယ့်လောက အသုံးချမှုများသို့ ဦးတည်လာသည်နှင့်အမျှ ၎င်းတို့၏အလုပ်ဆောင်မှုကို နက်ရှိုင်းစွာနားလည်နိုင်ခြင်း၊ လုပ်ဆောင်ချက်များကို မျက်မြင်ထိန်းသိမ်းနိုင်ခြင်းနှင့် ထွက်ရှိလာသောရလဒ်များကို စနစ်တကျ သုံးသပ်နိုင်ခြင်းတို့က အရေးကြီးလာသည်။
ဤသင်ခန်းစာကို ပြီးမြောက်ပြီးပါက သင်သည် အောက်ပါအရာများကို သိရှိ/နားလည်ထားမည်ဖြစ်သည်။
ဤရည်ရွယ်ချက်မှာ သင့် “အနက်သေတ္တာ” အဖြစ်ရှိသော အေးဂျင့်များကို ဖော်ပြနိုင်သော၊ စီမံခန့်ခွဲနိုင်သော၊ ယုံကြည်စိတ်ချရသော စနစ်များအဖြစ် ပြောင်းလဲနိုင်ရန် သိမြင်စေခြင်းဖြစ်သည်။
မှတ်ချက်: လုံခြုံနှင့် ယုံကြည်ရစေရန် AI အေးဂျင့်များကို ထည့်သွင်းအသုံးချရန် အရေးကြီးသည်။ Building Trustworthy AI Agents သင်ခန်းစာကိုလည်း ကြည့်ရှုပါ။
Observability ကိရိယာများဖြစ်သည့် Langfuse သို့မဟုတ် Microsoft Foundry ကဲ့သို့သော ကိရိယာများသည် အေးဂျင့် chạy များကို မကြာခဏ trace နှင့် span အဖြစ် ကိုယ်စားပြုကြသည်။
Observability မရှိပါက AI အေးဂျင့်သည် “အနက်သေတ္တာ(black box)” ကဲ့သို့ ခံစားရနိုင်ပြီး ၎င်း၏ အတွင်းအခြေအနေနှင့် ထောက်လှမ်းရေးများဟာ မမြင်နိုင်သဖြင့် ပြဿနာများကို တွေ့ရှိ/အကောင်းဆုံး အမြန်ဖြေရှင်းရန် ခက်ခဲစေသည်။ Observability အပါအဝင်ဖြင့် အေးဂျင့်များကို “ကမ္မရှူးပွင့်ထွက်(glass boxes)” အဖြစ် ပြောင်းလဲစေပြီး ယုံကြည်စိတ်ချမှု တည်ဆောက်ရန်နှင့် ၎င်းတို့ ဆောင်ရွက်သလို အလုပ်လုပ်နေကြောင်း သေချာစေရန် အလွန်အရေးကြီးသည်။
AI အေးဂျင့်များကို ထုတ်လုပ်မှုပတ်ဝန်းကျင်သို့ ရှေ့ဆက်ရန်အခါ အကွာအဝေးအသစ်များနှင့် လိုအပ်ချက်အသစ်များ ရှိလာမည်။ Observability သည် “ရှိသင့်မရှိသင့်” အရာမဟုတ်တော့ဘဲ အရေးပါသော စွမ်းရည်တစ်ခုဖြစ်လာပါသည်။
အေးဂျင့်လေ့လာမှုနှင့် အလားအလာကို ကြည့်ရန် metrics မျိုးစုံကို အကောက်ခွာထားရမည်။ အေးဂျင့်၏ ရည်ရွယ်ချက်ပေါ်မူတည်၍ အထူး metrics များကွာခြားနိုင်ပေမယ့် အချို့သည် အမြဲတမ်း အရေးပါသည်။
Observability ကိရိယာများက မကြာခဏ ကြည့်မည့် အထင်ကြီး metrics အချို့မှာ အောက်ပါအတိုင်းဖြစ်သည်။
Latency: အေးဂျင့်သည် မည်မျှအမြန်တုံ့ပြန်သနည်း။ များစွာ ခဏချိန်စောင့်ရသည့်အချိန်များသည် အသုံးပြုသူအတွေ့အကြုံကို မကောင်းစေပါ။ အလုပ်အမှုများနှင့် တစ်ဆင့်ချင်းစီအတွက် latency ကို agent run များအား tracing ဖြင့် တိုင်းတာသင့်သည်။ ဥပမာအားဖြင့် model ခေါ်ဆိုမှုများအတွက် စုစုပေါင်း 20 စက္ကန့်ယူသော အေးဂျင့်တစ်ရပ်ရှိပါက ပိုမိုမြန်ဆန်သော မော်ဒယ် သုံးခြင်း သို့မဟုတ် မော်ဒယ်ခေါ်ဆိုမှုများကို 병렬(running in parallel) ဟာ စိတ်ချရသောဖြေရှင်းချက်ဖြစ်နိုင်သည်။
Costs: တစ်ကြိမ်အေးဂျင့် run တစ်ခုလျှင် ကုန်ကျစရိတ် ဘယ်လောက်လဲ။ AI အေးဂျင့်များသည် token အလိုက် သို့မဟုတ် အပြင် API ခေါ်ဆိုမှုအလိုက် စေလွှတ်ခံရသော LLM ခေါ်ဆိုမှုများပေါ် မူတည်သည်။ ကိရိယာများအတွက် အသုံးပြုမှုများ မကြာခဏဖြစ်ခြင်း သို့မဟုတ် prompt များ များစွာ သုံးခြင်းသည် ကုန်ကျစရိတ်ကို အလျင်အမြန် မြင့်တက်စေနိုင်သည်။ ဥပမာ၊ အေးဂျင့်သည် အရည်အသွေးပိုမိုကောင်းလာစေရန်အတွက် LLM ကို ၅ ကြိမ်ခေါ်သုံးလျှင် ကုန်ကျစရိတ် ယုံကြည်ဖို့ သင့်တော်သလား၊ သို့မဟုတ် ခေါ်ဆိုချက်များကို လျော့နည်းစေခြင်း သို့မဟုတ် စျေးသက်သာသော မော်ဒယ်အသုံးပြုခြင်းဖြင့် ဖြေရှင်းနိုင်သလားကို သုံးသပ်ရမည်။ အချိန်နှင့်တပြေးညီ သတိပေးမှုများသည် မမျှော်လင့်သော ပွါးထွက်မှုများ (ဥပမာ အသုံးမလိုအပ်သော API loop များကြောင့် bug များ) ကိုလည်း ဖော်ထုတ်နိုင်သည်။
Request Errors: အေးဂျင့်သည် မည်မျှ ကုဒ်တောင်းဆိုမှုများကို မအောင်မြင်ပါသနည်း။ ၎င်းတွင် API error များ သို့မဟုတ် tool ခေါ်ဆိုမှု မအောင်မြင်မှုများ ပါဝင်နိုင်သည်။ ထုတ်လုပ်မှုတွင် အဆိုပါ အမှားများအပေါ် အတောက်ပဆုံး အားခံနိုင်စေလိုလျှင် fallback များ သို့မဟုတ် retry များကို သတ်မှတ်နိုင်သည်။ ဥပမာ၊ LLM provider A ကို အသုံးမပြုနိုင်သောအခါ LLM provider B သို့ ပြောင်းလဲသူ တစ်ယောက်အဖြစ် သတ်မှတ်နိုင်သည်။
User Feedback: အသုံးပြုသူတိုက်ရိုက် အကဲဖြတ်ချက်(Direct user evaluations) များက အလွန်တန်ဖိုးရှိသော သိကောင်းစရာများ ပေးနိုင်သည်။ ၎င်းတွင် ဖော်ပြချက်(Explicit) အဖြစ် အဆင့်ပေးခြင်း (👍 အကောင်း/👎 အမှား, ⭐1-5 ကြယ်) သို့မဟုတ် စာသားမှတ်ချက်များ ပါဝင်နိုင်သည်။ အမြဲတမ်း အနုတ်လက္ခဏာများ ရှိနေပါက ၎င်းသည် အေးဂျင့်အလုပ်မမှန်သည့် အချက်တစ်ခုဖြစ်သဖြင့် သတိပေးစေပါလိမ့်မည်။
Implicit User Feedback: အသုံးပြုသူပြုသွားသော အပြုအမူများသည် ဖော်ပြချက်မပေးဘဲလည်း အကြောင်းပြချက်ရှာဖွေရန် အကြောင်းအရာများပေးနိုင်သည်။ ၎င်းတွင် မိမိမေးခွန်းကို ချက်ချင်း ပြန်လည်ဖေါ်ပြခြင်း၊ ထပ်မံမေးခြင်း သို့မဟုတ် retry ခလုတ်ကို နှိပ်ခြင်း ကဲ့သို့သော အပြုအမူများ ပါဝင်သည်။ ဥပမာ၊ အသုံးပြုသူများသည် တခါထက်ပို၍ တူညီသော မေးခွန်းကို ထပ်မံမေးနေသည်ကို တွေ့ပါက ၎င်းသည် အေးဂျင့်သည် မမျှော်လင့်သလို လုပ်ဆောင်နေကြောင်းရုပ်သိမ်းဖြစ်နိုင်သည်။
Accuracy: အေးဂျင့်သည် မှန်ကန်သည့် သို့မဟုတ် ဆန္ဒရှိသော ထုတ်လွှင့်ချက်များကို ဘယ်နှစ်ကြိမ်ထပ်ထုတ်သနည်း။ Accuracy သတ်မှတ်ချက်များသည် အမျိုးမျိုးပြောင်းလဲနိုင်သည် (ဥပမာ ဖြေရှင်းမှုမှန်ကန်မှု၊ သတင်းအချက်အလက် ရယူမှု မှန်ကန်မှု၊ အသုံးပြုသူ စိတ်ကျေနပ်မှု)။ ပထမဆင့်ထားရမည့်အရာမှာ သင့်အေးဂျင့်အတွက် အောင်မြင်မှုဆိုတာ ဘယ်လို ရှိမလဲဆိုတာ သတ်မှတ်ခြင်းဖြစ်သည်။ သင်သည် automated checks, evaluation scores, သို့မဟုတ် task completion labels များဖြင့် accuracy ကို ချေနိုင်သည်။ ဥပမာအားဖြင့် traces များကို “succeeded” သို့မဟုတ် “failed” ဟု အမှတ်အသားပေးခြင်း။
Automated Evaluation Metrics: Automated evals များကိုလည်း သတ်မှတ်နိုင်သည်။ ဥပမာအနေဖြင့် LLM တစ်ခုကို သုံး၍ အေးဂျင့်၏ ထုတ်လွှင့်ချက်ကို အကဲဖြတ်စစ်ဆေးနိုင်သည် — ကောင်းမွန်/မှားယွင်း/မထွက်သင့် စသည်ဖြင့် အမှတ်ပေးနိုင်သည်။ ထို့အပြင် အေးဂျင့်၏ အစိတ်အပိုင်းများကို စမ်းသပ်အကဲဖြတ်နိုင်ရန် ကူညီပေးသည့် open source 라이ဘရရီများ များစွာရှိသည်။ ဥပမာ RAGAS သည် RAG အေးဂျင့်များအတွက် သို့မဟုတ် LLM Guard သည် အန္တရာယ်ရှိသော ဘာသာစကား သို့မဟုတ် prompt injection ကို တွေ့ရှိရန် အသုံးပြုနိုင်သည်။
လက်တွေ့တွင် ဤ metrics များကို ပေါင်းစပ်အသုံးပြုခြင်းဖြင့် AI အေးဂျင့်၏ ကျန်းမာရေးကို အကောင်းဆုံး ဖုံးလွှမ်းနိုင်သည်။ ဤအခန်းရှိ example notebook တွင် ဤ metrics များသည် တကယ့်ตัวอย่างများတွင် မည်သို့ ဖော်ပြသည်ကို ပြသမည် ဖြစ်သည်၊ သို့သော် ပထမဦးစွာ သင်သည် တစ်ခုနှင့်သတ်မှတ်ထားသည့် evaluation workflow များမည်သို့ ဖြစ်သည်ကို သင်ယူမည်။
Tracing ဒေတာကို စုဆောင်းရန် သင်၏ ကုဒ်ကို instrument ပြုလုပ်ရန် လိုအပ်သည်။ ရည်ရွယ်ချက်မှာ အေးဂျင့်ကုဒ်ကို instrument ပြုလုပ်၍ trace နှင့် metrics များ ထုတ်ပေးနိုင်စေခြင်းဖြစ်ပြီး ၎င်းတို့ကို observability ပလက်ဖောင်းက ဖမ်းယူ၊ ဖော်ပြနှင့် မြင်သာစေရန် ဖြစ်သည်။
OpenTelemetry (OTel): OpenTelemetry သည် LLM observability အတွက် ကဏ္ဍစံချိန်တစ်ခုအဖြစ် ထွက်ပေါ်လာသည်။ ၎င်းသည် telemetry data ထုတ်ပေးခြင်း၊ စုဆောင်းခြင်းနှင့် export လုပ်ခြင်းအတွက် API များ၊ SDK များနှင့် ကိရိယာများ စုံစမ်းပေးသည်။
ပစ္စည်းတစ်ချို့မှာ ရှိပြီးသား agent frameworks များကို wrapper သတ်မှတ်ထားသည့် instrumentation 라이ဘရရီများရှိပြီး OpenTelemetry span များကို observability ကိရိယာသို့ အလွယ်တကူ export လုပ်နိုင်စေသည်။ Microsoft Agent Framework သည် OpenTelemetry နှင့် သဘာဝအတိုင်း ပေါင်းစည်းထားသည်။ အောက်တွင် MAF agent ကို instrument ပြုလုပ်ရန် ဥပမာတစ်ခုကို ဖော်ပြထားသည်။
from agent_framework.observability import get_tracer, get_meter
tracer = get_tracer()
meter = get_meter()
with tracer.start_as_current_span("agent_run"):
# Agent လုပ်ဆောင်ချက်များကို အလိုအလျောက် လိုက်လံမှတ်တမ်းတင်သည်
pass
ဤအခန်းရှိ example notebook သည် သင့် MAF agent ကို မည်သို့ instrument ပြုလုပ်ရမည်ကို ပြသပါလိမ့်မည်။
Manual Span Creation: Instrumentation 라이ဘရရီများက အခြေခံအဆင့်ကောင်းတစ်ခု ပေးထားပေမယ့် ပိုမိုအသေးစိတ် သို့မဟုတ် custom အချက်အလက်များလိုအပ်သော ကိစ္စများ မကြာခဏ ဖြစ်ပေါ်နိုင်သည်။ သင်သည် custom application logic ထည့်ရန် span များကို လက်ဖြင့် ဖန်တီးနိုင်သည်။ အရေးကြီးသည်မှာ၊ automated သို့မဟုတ် လက်မှု span များကို custom attributes (tag များ သို့မဟုတ် metadata အဖြစ်လည်း သိကြသည်) ဖြင့် တိုးမြှင့်နိုင်သည်။ ဤ attributes များတွင် စီးပွားရေးအပိုင်းဆိုင်ရာ ဒေတာများ၊ အလယ်ပိုင်းတွက်ချက်ချက်များ သို့မဟုတ် debugging သို့မဟုတ် analysis အတွက် အသုံးဝင်နိုင်သည့် မည်သည့် context မဆို ပါဝင်နိုင်သည်၊ ဥပမာ user_id, session_id, သို့မဟုတ် model_version ကဲ့သို့။
Langfuse Python SDK ကို အသုံးပြု၍ traces နှင့် spans များကို လက်ဖြင့် ဖန်တီးသည့် ဥပမာ:
from langfuse import get_client
langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()
Observability က ကျွန်ုပ်တို့အား metrics များပေးသည်၊ သို့ပေမယ့် အကဲဖြတ်ခြင်းသည် အဲဒီဒေတာကို (နှင့် စမ်းသပ်ချက်များကို ဆောင်ရွက်ပြီး) စစ်ဆေးခြင်းဖြင့် AI အေးဂျင့်၏ အလုပ်ဆောင်မှု ဘယ်လိုရှိနေသည်နှင့် မည်သို့တိုးတက်စေမည်ကို သတ်မှတ်သည့် လုပ်ငန်းစဉ်ဖြစ်သည်။ အဓိပ္ပါယ်အားဖြင့် traces နှင့် metrics များ ရရှိလာပါက ၎င်းတို့အား ဘယ်လိုအသုံးချ၍ အေးဂျင့်ကို အကဲဖြတ်၍ ဆုံးဖြတ်ချက်များချမည်နည်း။
တည်ငြိမ်စွာ သုံးသပ်ခြင်းမှာ အရေးကြီးသည်။ အကြောင်းမှာ AI အေးဂျင့်များသည် မသေချာသည့် အဖြစ်အပျက်များ ရှိလေ့ရှိပြီး (အပ်ဒိတ်များ သို့မဟုတ် မော်ဒယ်လုပ်ဆောင်ချက်ရောက်ကျော်မှုကြောင့်) တိုးတက်လာနိုင်သည် — evaluation မရှိဘဲဖြစ်ပါက သင်၏ “သိမြင်ပါသော အေးဂျင့်” သည် တကယ့်အားဖြင့် သူ့လုပ်ငန်းကို အကောင်းဆုံးအတိုင်း ဆောင်ရွက်နေသည်ဟု မသိနိုင်ပါ။
AI အေးဂျင့်များအတွက် အကဲဖြတ်ခြင်းကို နှစ်မျိုးအမျိုးအစား ရှိသည်: online evaluation နှင့် offline evaluation။ နှစ်မျိုးစလုံး တန်ဖိုးရှိပြီး အချင်းချင်း ဖြည့်ဆည်းပေးကြသည်။ ကျွန်ုပ်တို့သည် ထုံးစံအရ ဖန်တီးရာတွင် offline evaluation ဖြင့် စတင်ခြင်း ဖြစ်သည်၊ အာရုံစိုက်မှုနည်းဆုံး ပြဳလုပ်ရမည့် အဆင့်ဖြစ်သည်။

ဤသည်မှာ ထုတ်လုပ်မှုမဟုတ်သော ထိန်းချုပ်ထားသောပတ်ဝန်းကျင်တွင် အေးဂျင့်ကို အကဲဖြတ်ခြင်းဖြစ်သည်၊ ပုံမှန်အားဖြင့် စမ်းသပ် dataset များကို အသုံးပြုသည်။ သင့်တွင် မျှော်လင့်သည့် ထုတ်လွှင့်ချက် သို့မဟုတ် မှန်ကန်သော အပြုအမူကို သိထားသော curated datasets များကို သုံးပြီး အေးဂျင့်ကို ဆောင်ရွက်စေသည်။
ဥပမာအားဖြင့် သင်သည် သင့်ကို သင်ခန်းစာမေးခွန်းဆိုင်ရာ အေးဂျင့်တစ်ခု တည်ဆောက်ထားလျှင် ၊ သင်သည် အဖြေသိရှိပြီး 100 ပြဿနာပါသော test dataset တစ်ခုကို အသုံးပြုနိုင်သည်။ Offline evaluation ကို မကြာခဏ ဖွံ့ဖြိုးရေးအတွင်းတွင် ပြုလုပ်ပြီး (CI/CD pipeline များ၏ အစိတ်အပိုင်းတစ်ခုဖြစ်နိုင်သည်) တိုးတက်မှုများကို စစ်ဆေးရန် သို့မဟုတ် regressions များမှ ကာကွယ်ရန် အသုံးပြုသည်။ ကောင်းကျိုးမှာ ၎င်းသည် ပြန်လည်ထပ်ဆင့်နိုင်ပြီး ground truth ရှိသဖြင့် ရှင်းလင်းသော accuracy metrics ကို ရယူနိုင်သည်။ အသုံးပြုသူမေးခွန်းများကို အတုယူပြီး အကဲဖြတ်နိုင်သည်၊ သို့မဟုတ် အပေါ်တွင်ဖေါ်ပြထားသည့် automated metrics များကို သုံးနိုင်သည်။
Offline evaluation ၏ အဓိက စိန်ခေါ်ချက်မှာ သင်၏ စမ်းသပ် dataset ကို ဖုံးလွှမ်းမှုကောင်းစေပြီး သက်ဆိုင်မှုရှိရန် ထိန်းသိမ်းထားရန် ဖြစ်သည် — အေးဂျင့်သည် တည်ငြိမ်စွာ ပြုလုပ်ထားသော စမ်းသပ်အစုအဝေးပေါ်တွင် သက်သာစွာ လုပ်ဆောင်နိုင်သော်လည်း ထုတ်လုပ်မှုတွင် မတူညီသည့် မေးခွန်းများအား ရင်ဆိုင်ကြုံတွေ့နိုင်သည်။ ထို့ကြောင့် စမ်းသပ်အစုများကို နောက်ထပ် အရိပ်အမြင်များနှင့် လက်တွေ့ကိစ္စများကို ကိုက်ညီအောင် update လုပ်ထားသင့်သည်။ အသေးငယ်သော “smoke test” အမှုများနှင့် ပိုကြီးမားသော evaluation စုံစုများကို ရောထွေးသုံးရန် အကျိုးရှိသည် — အသေးသည့်အစုများသည် အမြန်စစ်ဆေးရန်၊ ပိုကြီးသောထဲမွှန်းများသည် ကျယ်ပြန့်သော လုပ်ဆောင်နိုင်စွမ်း metrics များကိုတွက်ချက်ရန် အသုံးဝင်သည်။

ဤသည်မှာ တိုက်ရိုက် အသုံးပြုမှုဖြင့် သို့မဟုတ် ထုတ်လုပ်မှုအခြေအနေတွင် အေးဂျင့်ကို အကဲဖြတ်ခြင်းကို ဆိုလိုသည်။ Online evaluation သည် တကယ့်အသုံးပြုသူ တုံ့ပြန်ချက်များပေါ်တွင် အရေးကြီး metrics များကို မျှော်မီ monitoring လုပ်၍ အစဉ်အမြဲ ချိတ်ဆက်လေ့လာခြင်းကို လုပ်ဆောင်သည်။
ဥပမာ၊ success rates, အသုံးပြုသူကျေနပ်မှု rating များ သို့မဟုတ် အမှုအမျိုးမျိုးကို live traffic ပေါ်တွင် ချိတ်ဆက်စောင့်ကြည့်နိုင်သည်။ Online evaluation ၏ အားသာချက်မှာ ဓမ္မသမိုင်းခန်းတွင် မမျှော်လင့်နိုင်သော အချက်များကို ဖမ်းယူပေးနိုင်သည် — အေးဂျင့်၏ ထိရောက်မှုသည် အချိန်အလိုက် (input အမျိုးအစားပြောင်းလဲမှုကြောင့်) ဆုတ်ကျသွားနိုင်သည်ဟု တွေ့နိုင်သည်၊ မျှော်မင့်ထားသော မေးခွန်းများ သို့မဟုတ် ထူးဆန်းသော အခြေအနေများကို ရှာဖွေနိုင်သည်။ ၎င်းက ထုတ်လုပ်မှုတွင် အေးဂျင့်က ဘယ်လိုအပြုအမူ ပြုလုပ်နေသည်ကို တကယ့်ကို ရိုက်နှိပ်ထားသော ရုပ်ပုံကို ပေးသည်။
Online evaluation သည် implicit နှင့် explicit user feedback များစုဆောင်းခြင်း၊ shadow tests သို့မဟုတ် A/B test များ ပြုလုပ်ခြင်း (နစ်နာသော agent ဗားရှင်းအသစ်ကို ယခင်ဗားရှင်းနှင့် တပြိုင်နက် ပိုင်းခြားစမ်းသပ်ခြင်း) များပါဝင်နိုင်သည်။ စိန်ခေါ်ချက်မှာ live interactions များအတွက် ယုံကြည်စိတ်ချရသော label များ သို့မဟုတ် score များ ရရှိစေဖို့ ခက်ခဲနိုင်သည် — သင်သည် အသုံးပြုသူတုံ့ပြန်ချက်များ သို့မဟုတ် downstream metrics (ဥပမာ အသုံးပြုသူသည် ရလဒ်ကို တစ်ခါတည်း နှိပ်ခဲ့မလား) များပေါ် မူတည်နိုင်သည်။
Online နှင့် offline evaluation များသည် အချင်းချင်းမဆန့်ကျင်သဟာသရာဖြစ်ကြပါ။ ၎င်းတို့သည် အချင်းချင်းကို ဖြည့်ဆည်းပေးသည်။ Online monitoring မှ ရရှိသော အရှိန်အဟုန်များ(ဥပမာ agent သည် မပြေပြစ်သော မေးခွန်းအမျိုးအစားအသစ်များ၌ ပျက်ကွက်နေခြင်း) ကို offline စမ်းသပ် dataset များအား ဖွံ့ဖြိုးခြင်းနှင့် တိုးတက်အောင် အသုံးပြုနိုင်သည်။ အနှစ်ချုပ်အားဖြင့် offline စမ်းသပ်တွင် ကောင်းစွာ လုပ်ဆောင်သော အေးဂျင့်များကို ထုတ်လုပ်ရေးတွင် ပို့ချပြီး online တွင် ပိုမိုယုံကြည်စိတ်ချစွာ မျက်နှာဖုံး၍ မော်နီတာလုပ်နိုင်သည်။
အများအားဖြင့် အဖွဲ့များသည် အောက်ပါ ဝင်ရိုးစဉ်ကို လက်နက်တင်လေ့ရှိသည်။
evaluate offline -> deploy -> monitor online -> collect new failure cases -> add to offline dataset -> refine agent -> repeat.
AI အေးဂျင့်များကို ထုတ်လုပ်မှုသို့ ထည့်သွင်းသည့်အခါ အမျိုးမျိုးသော စိန်ခေါ်မှုများနှင့် ရင်ဆိုင်ရနိုင်သည်။ အောက်တွင် ပုံမှန်ကျော်ကြားသော ပြဿနာများနှင့် ၎င်းတို့၏ဖြေရှင်းနည်းအချို့ကို ဖော်ပြထားသည်။
| ပြဿနာ (Issue) | ဖြေရှင်းနိုင်သည့် နည်းလမ်း (Potential Solution) |
|---|---|
| AI Agent အလုပ်များကို တည်ကြာစွာ မကျေအောင် ဆောင်ရွက်နေခြင်း | - AI Agent ကို ပေးသော prompt ကို အနက်ရှင်းပြေရှင်းစေပါ; ရည်ရွယ်ချက်များကို သေချာဖော်ထုတ်ပါ။ - အလုပ်များကို အပိုင်းခွဲ၍ အေးဂျင့်အများကြီးဖြင့် ကိုင်တွယ်ခြင်းက ကူညီနိုင်သည်ဟု ရှာဖွေပါ။ |
| AI Agent များ ဆက်တိုက် loop အတွင်း ပတ်လည်နေရခြင်း | - Agent သည် ဘယ်အချိန်တွင် ရပ်ရမည်ဆိုသော ကန့်သတ်ချက်များနှင့် ဖျက်ချိန်စာရင်းများကို သေချာထားပါ။ - တွက်ချက်ခြင်းနှင့် အစီအစဉ်လိုအပ်သော စောင့်ကြည့်မှုများအတွက် အကြီးစား မော်ဒယ်တစ်ခု သုံးပါ။ |
| AI Agent ကိရိယာ(tool) ခေါ်ဆိုမှုများ မကောင်းစွာ လုပ်ဆောင်နေခြင်း | - ကိရိယာ၏ ထွက်ပေါက်ကို agent စနစ်သည်မတိုက်ရိုက်သည့်နေရာတွင် စမ်းသပ် နှင့် အတည်ပြုပါ။ - သတ်မှတ်ထားသော ပါရာမီတာများ၊ prompts နှင့် ကိရိယာအမည်များကို ပြုပြင်ပါ။ |
| Multi-Agent စနစ် အလုပ်မမှန်ဆောင်ရွက်ခြင်း | - တစ်ဦးချင်းစီအတွက် ပေးသော prompt များကို ထပ်မံသုံးသပ်၍ ထူးခြားချက်များနှင့် သေချာသည့် ညွှန်ကြားချက်များပေးပါ။ - ဌာနေမှု သို့မဟုတ် controller agent တစ်ခုကို အသုံးပြု၍ ဤ agent မည်သူဖြစ်သင့်ကြောင်း သတ်မှတ်ပေးသည့် hierarchical system တည်ဆောက်ပါ။ |
ဤပြဿနာများအများစုကို observability ရှိပါက ပိုမိုထိရောက်စွာ ရှာဖွေစစ်ဆေးနိုင်သည်။ ဤတွင် ဖော်ပြထားသော traces နှင့် metrics များက အေးဂျင့် workflow ၏ တိတိကျကျ မည်သည့်အဆင့်တွင် ပြဿနာများ ဖြစ်ပေါ်နေကြောင်း ကိုင်တွယ်ဖော်ထုတ်ရာတွင် အထောက်အကူဖြစ်စေ၍ debugging နှင့် optimization ကို ထိုးဖောက် လုပ်ဆောင်ရန် ပိုမိုထိရောက်စေသည်။
Here are some strategies to manage the costs of deploying AI agents to production:
Using Smaller Models: ကျယ်ပြန့်စွာအသုံးပြုသော agentic use-case အချို့တွင် Small Language Models (SLMs) များကောင်းစွာ လုပ်ဆောင်နိုင်ပြီး ကုန်ကျစရိတ်ကို တဖြည်းဖြည်း လျော့ချနိုင်သည်။ ယခင်တွင် ဖော်ပြထားသကဲ့သို့ performance ကို ကြီးမားသော models များနှင့် ယှဉ်ပြိုင် သတ်မှတ်ရန် နှိုင်းယှဉ်ရန် အကဲဖြတ်စနစ်တစ်ခု တည်ဆောက်ခြင်းက SLM သည် သင့် use case အတွက် ဘယ်လောက်ကောင်းမလဲကို နားလည်ရန် အကောင်းဆုံးနည်းလမ်းဖြစ်သည်။ intent classification သို့မဟုတ် parameter extraction ကဲ့သို့ ရိုးရှင်းသော အလုပ်များအတွက် SLM များကို အသုံးပြုရန် စဉ်းစားပြီး၊ စဉ်းစားရန် ကြုံရာတွင်တော့ ကြီးမားသော models များကို ထိန်းသိမ်းထားပါ။
Using a Router Model: တူညီသော မဟာဗျူဟာတစ်ခုမှာ မတူညီသော model များနှင့် အရွယ်အစားများကို အသုံးချခြင်းဖြစ်သည်။ LLM/SLM သို့မဟုတ် serverless function တစ်ခုကို အသုံးပြု၍ complexity အပေါ်မူတည်ပြီး တောင်းဆိုချက်များကို အကောင်းဆုံးသင့်တော်သည့် model များသို့ လမ်းညွှန်နိုင်သည်။ ၎င်းက ကုန်ကျစရိတ်ကို လျော့ချပေးနိုင်သလို သင့်တာဝန်သတ်မှတ်ထားသော အလုပ်များတွင် စွမ်းဆောင်ရည်ကိုလည်း ထိန်းသိမ်းပေးနိုင်သည်။ ဥပမာ၊ ရိုးရှင်း၍ မြန်ဆန်သော မေးခွန်းများကို ပိုကျဉ်း၍ အရှိန်မြန်သော model များသို့ ပို့လိုက်၍၊ ပြင်းထန်သော အတွေးခေါ်မှုများအတွက်သာ စိတ်ဓာတ်ကြီးသော model များကို အသုံးပြုပါ။
Caching Responses: ပါဝင်သော တောင်းဆိုမှုများနှင့် အလုပ်များကို ဖော်ထွက်ကြောင်း ပြန်ကြည့်ရှု၍ agentic system သို့ မရောက်မီ အဖြေများကို ရှိရှိပေးခြင်းသည် သက်တမ်းတူ တောင်းဆိုမှုများ၏ အရွယ်အစားကို လျော့ချပေးရန် ကောင်းသောနည်းလမ်းတစ်ခုဖြစ်သည်။ ဆက်စပ်သော cached requests များနှင့် တောင်းဆိုချက်တစ်ခုက ဘယ်လောက်ဆင်တူသည်ကို ပိုမိုလွယ်ကူသော AI model များကို အသုံးပြု၍ ဖော်ထုတ်နိုင်သည့် flow တစ်ခုကိုပါ ဆောင်ရွက်နိုင်သည်။ ဤမဟာဗျူဟာသည် မကြာခဏမေးသောမေးခွန်းများ သို့မဟုတ် ပုံမှန် workflow များအတွက် ကုန်ကျစရိတ်ကို ထူးခြားစွာ လျော့ချနိုင်သည်။
In the example notebook of this section, we’ll see examples of how we can use observability tools to monitor and evaluate our agent.
Join the Microsoft Foundry Discord to meet with other learners, attend office hours and get your AI Agents questions answered.
တာဝန်ပယ်ချချက်: ဤစာတမ်းကို AI ဘာသာပြန်ဝန်ဆောင်မှုဖြစ်သည့် Co-op Translator ဖြင့် ဘာသာပြန်ထားပါသည်။ ကျွန်ုပ်တို့သည် မှန်ကန်စွာ ဘာသာပြန်ရန် ကြိုးစားသော်လည်း အလိုအလျောက် ဘာသာပြန်ချက်များတွင် အမှားများ သို့မဟုတ် မှန်ကန်မှုလျော့နည်းချက်များ ရှိနိုင်ကြောင်း သတိပြုပါ။ မူလစာတမ်းကို မူရင်းဘာသာဖြင့်သာ စံနှုန်းအဖြစ်ယူဆသင့်သည်။ အရေးကြီးသော အချက်အလက်များအတွက် သက်ဆိုင်ရာ ပရော်ဖက်ရှင်နယ် လူ့ဘာသာပြန်ကို အသုံးပြုစေရန် အကြံပြုပါသည်။ ဤဘာသာပြန်ချက်ကို အသုံးပြုခြင်းကြောင့် ဖြစ်ပေါ်လာသည့် နားလည်မှားခြင်းများ သို့မဟုတ် အဓိပ္ပာယ်မှားဖော်ပြခြင်းများအတွက် ကျွန်ုပ်တို့ တာဝန်မယူပါ။