എഐ ഏജന്റുകള് പ്രായോഗിക പരീക്ഷണ മാതൃകകളിൽ നിന്നു യഥാർത്ഥ പ്രയോജനങ്ങളിൽ എത്തുന്നതോടെ, അവയുടെ പെരുമാറ്റത്തെ മനസ്സിലാക്കുവാനും, അവയുടെ പ്രകടനം നിരീക്ഷിക്കാനും, അവയുടെ ഔട്ട്പുട്ടുകൾ ക്രമ്മനുപാതമായി മൂല്യനിർണയം നടത്തുവാനും കഴിവ് അനിവാര്യമാണ്.
ഈ പാഠം പൂർത്തിയാക്കിയ ശേഷം, നിങ്ങൾക്ക് അറിയാം/ബോധ്യമായിരിക്കും:
നിങ്ങളുടെ “കറുത്ത ബോക്സ്” ഏജന്റുകളെ പരവതാനീയമായ, നിയന്ത്രിക്കാവുന്ന, വിശ്വസനീയമായ സംവിധാനങ്ങളാക്കി മാറ്റാനുള്ള വിജ്ഞാനം നിങ്ങളെ സജ്ജമാക്കുകയാണ് ലക്ഷ്യം.
കുറിപ്പ്: സുരക്ഷിതവും വിശ്വസനീയവുമായ എഐ ഏജന്റുകൾ വിന്യസിക്കുക അത്യന്താപേക്ഷിതമാണ്. Building Trustworthy AI Agents പാഠവും പരിശോധിക്കുക.
Langfuse അല്ലെങ്കിൽ Microsoft Foundry പോലുള്ള നിരീക്ഷണ ഉപകരണങ്ങൾ സാധാരണയായി ഏജന്റ് പ്രവർത്തനങ്ങൾ ട്രേസുകളും സ്പാൻസുകളും ആയി പ്രതിനിധീകരിക്കുന്നു.
നിരീക്ഷണം ഇല്ലാതിരുന്നാൽ, ഒരു എഐ ഏജന്റ് “കറുത്ത ബോക്സ്” പോലെയാണ് തോന്നുക — അതിന്റെ ആഭ്യന്തരാവസ്ഥയും നിരീക്ഷണവും അജ്ഞാതമാണെന്നും പ്രശ്നങ്ങൾ നിർണയിക്കാനും പ്രകടനം മെച്ചപ്പെടുത്താനും ബുദ്ധിമുട്ടുള്ളതായും വരുന്നു. നിരീക്ഷണത്തോടെ, ഏജന്റുകൾ “മണൽപ്പനിയുള്ള ബോക്സുകളായി” മാറുന്നു, അവ വിശ്വസനീയതക്കും പ്രവര്ത്തനം നടപടിക്രമപ്രകാരം സാങ്കേതിക വിശകലനത്തിനും വഴിയൊരുക്കുന്നു.
എഐ ഏജന്റുകളെ പ്രൊഡക്ഷൻ പരിസ്ഥിതികളിലേക്ക് മാറ്റുമ്പോൾ പുതിയ വെല്ലുവിളികളും ആവശ്യങ്ങളും Sams പരസ്പരം വരുന്നു. നിരീക്ഷണം ഇതിൽ ഒന്നല്ല “എന്തോ കൂടി ഉണ്ടാകണം” എന്നതല്ല, നിർണായക ശേഷിയാണ്:
ഏജന്റുകളുടെ പെരുമാറ്റം നിരീക്ഷിക്കുകയും മനസ്സിലാക്കുകയും ചെയ്യാൻ, 다양한 മെട്രിക്കുകളും സിഗ്നലുകളും ട്രാക്ക് ചെയ്യണം. ഏജന്റിന്റെ ലക്ഷ്യത്തിൽ ആശ്രയിച്ച് പ്രത്യേക മെട്രിക്കുകൾ വ്യത്യസ്തമായിരിക്കാം, എന്നാൽ ചിലത് സർവകാലികമായി പ്രധാനമാണ്.
നിരീക്ഷണ ടൂളുകൾ സാധാരണയായി ട്രാക്ക് ചെയ്യുന്ന പ്രധാന മെട്രിക്കുകൾ:
ലാറ്റൻസി: ഏജന്റ് എത്ര വേഗത്തിലും പ്രതികരിക്കുന്നു? നാൾവഴിച്ചിരിപ്പാണ് ഉപയോഗകൃതി ദോഷകരം. ഏജന്റ് റൺസിന്റെ പ്രവർത്തനങ്ങളും വ്യക്തിഗത ഘടകങ്ങളും ട്രേസിങ്ങിലൂടെ ലാറ്റൻസി അളക്കണം. ഉദാഹരണത്തിന്, ഒരേ ഏജന്റ് എല്ലാ മോഡല് കോളുകളുടെയും സംയോജിത സമയം 20 സെക്കന്റ് എങ്കിൽ വേഗമുള്ള മോഡൽ ഉപയോഗിക്കുക അല്ലെങ്കിൽ മൾട്ടി മോഡൽ കോൾ പാരലൽ ആയി പ്രവർത്തിപ്പിക്കുക.
ചെലവുകൾ: ഏജന്റ് റണിന് ചിന്തക്കാനുള്ള ചെലവ് എത്ര? എഐ ഏജന്റുകൾ ടോക്കണുകളുടെ അടിസ്ഥാനത്തിൽ ബില്ല് ചെയ്യുന്ന LLM കോളുകളും ഏകദേശം ഓരോക്കോൾ ബിൽ ചെയ്യുന്ന ബാഹ്യ API കളിലും ആശ്രയിച്ചിരിക്കുന്നു. ടൂൾ ചുരുക്കം കൂടുതൽ ഉപയോഗിക്കുകയോ ഒന്നിലധികം പ്രോംപ്റ്റുകൾ ഉപയോഗിക്കുകയോ ചെയ്തു ചെലവുകൾ വേഗത്തിൽ ഉയരാം. ഉദാഹരണത്തിന്, ഏജന്റ് ഒരു LLM അഞ്ചു തവണ വിളിക്കുന്നുവെങ്കിൽ ചെലവ് യുക്തമാണോ എന്ന് പരിശോധിക്കണം, അല്ലെങ്കിൽ കോൾസ് കുറയ്ക്കുകയോ കുറച്ച വിലയുള്ള മോഡൽ ഉപയോഗിക്കുകയോ ചെയ്യാമോ എന്ന്. ലൈവ് നിരീക്ഷണം അനധികൃതമായി ചെലവുകൾ ഉയരുന്നതിനെ തിരിച്ചറിയാനും സഹായിക്കും (ഉദാഹരണം ബഗുകൾ കാരണം API ലൂപ്പുകൾ).
അപേക്ഷ തെറ്റുകൾ: എത്ര അപേക്ഷകൾ പരാജയപ്പെട്ടു? ഇത് API പിഴവുകൾ അല്ലെങ്കിൽ ടൂൾ കോളുകളുടെ പരാജ്യം ഉൾക്കൊള്ളാം. പ്രൊഡക്ഷനിൽ ഏജന്റ് കൂടുതൽ ബലമായി പ്രവർത്തിക്കാൻ, ഫാൾബാക്കുകൾ അല്ലെങ്കിൽ റിട്രൈകൾ ഒരുക്കാം, ഉദാ: LLM പ്രൊവൈഡർ A പ്രവർത്തിച്ചതിൽ പരാജയം ഉണ്ടെങ്കിൽ ബാക്കപ്പ് ആയി LLM പ്രൊവൈഡർ B ഉപയോഗിക്കുക.
ഉപഭോക്തൃ പ്രതികരണം: നേരിട്ട് ഉപഭോക്തൃ മൂല്യനിർണയങ്ങൾ മൂല്യവത്തായ洞ുകൾ നൽകുന്നു. ഇത് വ്യക്തമായ റേറ്റിംഗുകൾ (👍thumbs-up/👎down, ⭐1-5 സ്റ്റാർസ്) അല്ലെങ്കിൽ എഴുത്ത് അഭിപ്രായങ്ങൾ ഉൾക്കൊള്ളാം. സ്ഥിരമായ നെഗറ്റീവ് പ്രതികരണങ്ങൾ ഏജന്റ് പ്രതീക്ഷക്കനുസരിച്ച് പ്രവർത്തിക്കുന്നില്ലെന്ന സൂചനയാണ്.
നിങ്ങളുടെ നന്ദി നൽകിയില്ലേ?: ഉപഭോക്തൃ പെരുമാറ്റങ്ങൾ വ്യക്തമായ റേറ്റിംഗുകൾ ഇല്ലാതെയും ആശയങ്ങൾ നൽകുന്നു. ഇത് ചോദ്യം പുനരാവൃത്തി, ആവർത്തിക്കുന്ന ചോദ്യം ചോദിക്കൽ അല്ലെങ്കിൽ റിട്രൈ ബട്ടൺ ക്ലിക്ക് ചെയ്യൽ ഉൾപ്പെടാം. ഉദാ: ഉപഭോക്താക്കൾ ഒരേ ചോദ്യം ആവർത്തിക്കുന്നുവെന്ന് കാണുമ്പോൾ ഇത് ഏജന്റ് പ്രതീക്ഷത്തോട് പൊരുത്തപ്പെടുന്നില്ലെന്നും സൂചിപ്പിക്കുന്നു.
അകൃത്യത: ഏജന്റ് എത്രത്തോളം ശരിയായ അല്ലെങ്കിൽ ആഗ്രഹീത ഔട്ട്പുട്ടുകൾ തയാറാക്കുന്നു? അകൃത്യത വ്യത്യസ്തമായി നിർവചിക്കപ്പെടുന്നു (ഉദാ: പ്രശ്നപരിഹാര കൃത്യത, വിവര ശേഖരണ കൃത്യത, ഉപയോക്തൃ സംതൃപ്തി). ആദ്യഘട്ടം വിജയത്തെ എങ്ങനെ നിർവചിക്കാമെന്നാണെന്ന് നിർവ്വചിക്കുകയാണ്. സ്വയംക്രമീകരിച്ച പരിശോധനകൾ, മൂല്യനിർണയ സ്കോറുകൾ, ടാസ്ക്ക് പൂർത്തീകരണ ലേബലുകൾ വഴി അകൃത്യം ട്രാക്ക് ചെയ്യാം. ഉദാഹരണം ആയി, ട്രേസുകൾ “വിജയം” അല്ലെങ്കിൽ “പരാജയം” എന്നിങ്ങനെ അടയാളപ്പെടുത്താം.
സ്വയംക്രമ ബഹുമതികൾ: സ്വയംക്രമ മൂല്യനിർണയങ്ങളോ കൂടെ സജ്ജീകരിക്കാം. ഉദാഹരണത്തിന്, ഏജന്റിന്റെ ഔട്ട്പുട്ടിനെ എങ്ങനെ സഹായകരമല്ല, കൃത്യമായോ അല്ലയോ എന്ന് LLM ഉപയോഗിച്ച് സ്കോർ ചെയ്യാം. ഒന്നിലധികം ഓപ്പൺ സോഴ്സ് ലൈബ്രറികളും ലഭ്യമാണ്, ഉദാ: RAG ഏജന്റുകള്ക്കായി RAGAS, ഹാനികര ഭാഷയോ പ്രേംപ്റ്റ് ഇൻജക്ഷനോ തിരിച്ചറിയാൻ LLM Guard.
പ്രായോഗികമായി, ഈ മെട്രിക്കുകളുടെ സംയോജനം എഐ ഏജന്റിന്റെ ആരോഗ്യം ഏറ്റവും സമഗ്രമായി കാണിക്കുന്നു. ഈ പാഠത്തിലെ ഉദാഹരണ നോട്ട്ബുക്ക് ഇത്തരത്തിലുള്ള മെട്രിക്കുകൾ യഥാർത്ഥ ഉദാഹരണങ്ങളോട് കാണിക്കും, എന്നാൽ ആദ്യം സാധാരണ മൂല്യനിർണയ പ്രവൃത്തിപദ്ധതി എങ്ങനെ ആയിരിക്കും മനസ്സിലാക്കാം.
ട്രേസിങ് ഡാറ്റ ശേഖരിക്കാനായി, നിങ്ങൾക്ക് നിങ്ങളുടെ കോഡ് ഇൻസ്ട്രുമെന്റ് ചെയ്യേണ്ടതുണ്ട്. ലക്ഷ്യം ഏജന്റ് കോഡിനെ ട്രേസുകളും മെട്രിക്കുകളും പുറപ്പെടുവിക്കാൻ ഇന്സ്ട്രുമെന്റുചെയ്യലാണ്, അവ നിരീക്ഷണ പ്ലാറ്റ്ഫോം ക്യാപ്ചർ ചെയ്ത് പ്രോസസ് ചെയ്ത് ദൃശ്യവൽക്കരിക്കാവുന്നതാണ്.
OpenTelemetry (OTel): OpenTelemetry LLM നിരീക്ഷണത്തിനായി വ്യവസായ സ്റ്റാൻഡേർഡായി ഉയർന്നു. ഇത് ടെലിമെട്രി ഡാറ്റ ജനനത്തിനും ശേഖരണത്തിനും എക്സ്പോർട്ടിംഗിനും API കളും SDK കളും ടൂളുകളും നൽകുന്നു.
നിരവധി ഇൻസ്ട്രുമെന്റേഷൻ ലൈബ്രറികൾ നിലവിലുള്ള ഏജന്റ് ഫ്രെയിംവർക്കുകളെ വൃത്തിയാക്കി OpenTelemetry സ്പാൻസ് ഒരു നിരീക്ഷണ ഉപകരണത്തിലേക്ക് എളുപ്പത്തിൽ എക്സ്പോർട്ട് ചെയ്യാൻ ചെയ്യുന്നു. Microsoft Agent Framework സ്വാഭാവികമായും OpenTelemetry-യുമായി ഇന്റഗ്രേറ്റ് ചെയ്യുന്നു. கீழെ MAF ഏജന്റ് ഇൻസ്ട്രുമെന്റേഷന് ഉദാഹരണം:
from agent_framework.observability import get_tracer, get_meter
tracer = get_tracer()
meter = get_meter()
with tracer.start_as_current_span("agent_run"):
# ഏജന്റ് എക്സിക്യൂഷൻ സ്വയമേവ ട്രേസ് ചെയ്യപ്പെടുന്നു
pass
ഈ അധ്യായത്തിലെ ഉദാഹരണ നോട്ട്ബുക്ക് നിങ്ങളുടെ MAF ഏജന്റ് എങ്ങനെ ഇൻസ്ട്രുമെന്റ് ചെയ്യാമെന്ന് പ്രദർശിപ്പിക്കും.
മാനുവൽ സ്പാൻ നിർമ്മാണം: ഇൻസ്ട്രുമെന്റേഷൻ ലൈബ്രറികൾ നല്ല അടിസ്ഥാനമാണ് നൽകുന്നത്, എന്നാൽ ചിലപ്പോൾ കൂടുതൽ വിശദമായ കസ്റ്റം വിവരങ്ങൾ ആവശ്യമായിരിക്കും. നിങ്ങൾക്ക് മാനുവലായി സ്പാൻസ് സൃഷ്ടിക്കാം, കസ്റ്റം ആപ്ലിക്കേഷൻ ലൊജിക്ക് ചേർക്കാം. വലുതൊ പ്രധാനപ്പെട്ടത്, സ്വയംകൃതമോ മാനുവലായോ സൃഷ്ടിച്ച സ്പാൻസുകൾ കസ്റ്റം ഗുണങ്ങൾ (ടാഗുകളോ മെറ്റാഡേറ്റയോ എന്ന് അറിയപ്പെടുന്നു) ചേർക്കുന്നതിലൂടെ സമ്പുഷ്ടമാക്കാനാകും. ഇതിൽ ബിസിനസ്സ്-സ്പെസിഫിക് ഡാറ്റ, ഇടനിലക്കൽ കണക്കുകൾ, ഡീബഗ്ഗിംഗിന് ഉപകരിക്കുന്ന ഏതെങ്കിലും പ്ര.context എന്നിവ ഉൾപ്പെടാം, ഉദാ: user_id, session_id, അല്ലെങ്കിൽ model_version.
Langfuse Python SDK ഉപയോഗിച്ച് മാനുവലായി ട്രേസുകളും സ്പാൻസുകളും സൃഷ്ടിക്കുന്ന ഉദാഹരണം:
from langfuse import get_client
langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()
നിരീക്ഷണം മെട്രിക്കുകൾ നൽകുന്നു, എന്നാൽ മൂല്യനിർണയം ആ ഡാറ്റ വിശകലനം ചെയ്തുകൊണ്ട് (പരീക്ഷണങ്ങൾ നടത്തിയും) എഐ ഏജന്റ് എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നും മെച്ചപ്പെടുത്താൻ സാധിക്കുന്നതിന്റെയും ചുരുക്കമാണ്. മറ്റെല്ലാ വാക്കിൽ, നിങ്ങൾക്ക് ആ ട്രേസുകളും മെട്രിക്കുകളും ലഭിച്ചുകഴിഞ്ഞാൽ, അവ എങ്ങനെ ഉപയോഗിച്ച് ഏജന്റിനെ വിധിശുദ്ധമാക്കുകയും തീരുമാനം എടുക്കുകയും ചെയ്യാം?
നിയമിത മൂല്യനിർണയം നിർണായകമാണ്, കാരണം ഏജന്റുകൾ പൊതുവെ നിഷ്പ്രഭമായില്ല; അവർ വിവരണം ഇല്ലാതെ, അപ്ഡേറ്റുകളിലൂടെയോ മോഡൽ പെരുമാറ്റം മാറ്റത്തിലൂടെയോ വളരാം – മൂല്യനിർണയം ഇല്ലെങ്കിൽ നിങ്ങളുടെ “ έξ്ജ്ഞാനമുള്ള ഏജന്റ്” സുതാര്യമായി പ്രവർത്തിക്കുന്നുണ്ടോ എന്നും അല്ലെങ്കിൽ പിന്നോട്ടാണോ എന്നുമറിയാൻ കഴിയില്ല.
എഐ ഏജന്റുകളുടെ മൂല്യനിർണയങ്ങൾക്ക് രണ്ട് വിഭാഗമുണ്ട: ഓൺലൈൻ മൂല്യനിർണയം અને ഓഫ്ലൈൻ മൂല്യനിർണയം. രണ്ടും വിലപ്പെട്ടതാണ്, പരസ്പരം പൂരകമാണ. സാധാരണയായി ഞങ്ങൾ ഓഫ്ലൈൻ മൂല്യനിർണയത്തോടെ തുടങ്ങുന്നു, കാരണം ഏജന്റിനെ വിന്യസിക്കുന്നതിന് മുമ്പുള്ള നിശ്ചിത തരം നടത്തൽ ആണ് ഇത്.

ഈ സാഹചര്യത്തിൽ, ഏജന്റ് നിയന്ത്രിത സാഹചര്യത്തിൽ, സാധാരണയായി ടെസ്റ്റ് ഡാറ്റാസെറ്റുകൾ ഉപയോഗിച്ചു, അതായത് സജീവ ഉപയോക്തൃ ചോദ്യങ്ങൾ അല്ല, മൂല്യനിർണയം ചെയ്യപ്പെടുന്നു. നിങ്ങൾ ക്യൂറേറ്റ് ചെയ്ത ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച് അവിടെ അഭ്യസിക്കുന്നില്ലെങ്കിൽ എന്താണ് പ്രതീക്ഷിക്കുന്ന ഔട്ട്പുട്ടോ ശരിയായ പെരുമാറ്റവുമാണെന്ന് നിങ്ങൾ അറിയുകയും തുടർന്ന് ഏജന്റ് അവിടെ പ്രവർത്തിപ്പിക്കുകയും ചെയ്യുന്നു.
ഉദാഹരണത്തിന്, നിങ്ങൾ ഒരു ഗണിത പ്രശ്ന ഏജന്റ് നിർമ്മിച്ചാൽ, നിങ്ങൾക്ക് 100 പ്രശ്നങ്ങളോടുകൂടിയ ഒരു ടെസ്റ്റ് ഡാറ്റാസെറ്റ് ഉണ്ടാകാം, അത് അറിയപ്പെടുന്ന ഉത്തരങ്ങളോടുകൂടിയതാണ്. ഓഫ്ലൈൻ മൂല്യനിർണയം സാധാരണയായി വികസന സമയത്ത് (CI/CD പൈപ്പ്ലൈനുകളുടെ ഭാഗമാകുമോ) മെച്ചപ്പെടുത്തലുകൾ പരിശോധിക്കാനും തിരിച്ചടികളെ തടയാനുമുള്ളതാണ്. ഇതിന്റെ നേട്ടം ഇത് പുനരാവൃത്തി സാധ്യവും ഭൂമിസത്യം ഉള്ളതിനാൽ കൃത്യതാ മെട്രിക്കുകൾ വ്യക്തമാണെന്നും ആണ്. ഉപയോക്തൃ ചോദ്യങ്ങൾ അനുകരിച്ച് ഏജന്റിന്റെ പ്രതികരണങ്ങൾ ആശയപരമായ ഉത്തരങ്ങളുമായി താരതമ്യം ചെയ്യാമോ, സ്വയംക്രമ മെട്രിക്കുകൾ ഉപയോഗിക്കാമോ എന്നും ചെയ്യാം.
ഓഫ്ലൈൻ മൂല്യനിർണയത്തിൽ പ്രധാന വെല്ലുവിളി നിങ്ങളുടെ ടെസ്റ്റ് ഡാറ്റാസെറ്റ് സമഗ്രവും ബന്ധപ്പെട്ടതുമായിട്ട് ഇരിക്കുകയുമാണ് — ഏജന്റ് ഒരു നിശ്ചിത ടെസ്റ്റ് സെറ്റിൽ നല്ല പ്രകടനം കാണിച്ചാലും, പ്രൊഡക്ഷനിൽ വളരെ വ്യത്യസ്തമായ ചോദ്യങ്ങൾ നേരിടാം. അതിനാൽ ടെസ്റ്റ് സെറ്റുകളിൽ പുതിയ തീയതികളും ഉദാഹരണങ്ങളും ഉൾപ്പെടുത്തലും നടത്തണം, യാഥാർത്ഥ്യമേറിയ സാഹചര്യങ്ങളെ പ്രതിഫലിപ്പിക്കുന്നവയാകണമെന്നും. ചെറിയ “സ്മോക്ക് ടെസ്റ്റ്” കേസുകളും വിശാലമായ മൂല്യനിർണയ സെറ്റുകളും മിശ്രിതം നല്ലതാണ്: ചെറിയവ വേഗത്തിൽ പരിശോധിക്കാൻ, വലിയവ വ്യാപക പ്രകടനം നിരീക്ഷിക്കാൻ.

ഈയിടം ഏജന്റിനെ ടെസ്റ്റ് ഡാറ്റയുടെ പുറമേ യഥാർത്ഥ സമയങ്ങളിൽ, വളരെ സംജീവിത ഷെറ്റിംഗിൽ, പ്രൊഡക്ഷനിൽ പ്രവർത്തനത്തിനിടെ മൂല്യനിർണയം ചെയ്യുന്നതാണു. ഓൺലൈൻ മൂല്യനിർണയത്തിൽ യഥാർത്ഥ ഉപയോക്തൃ ഇടപെടലുകൾ നിരീക്ഷിക്കുന്നതും തുടർച്ചയായി ഫലങ്ങൾ വിശകലനം ചെയ്യുന്നുമാണ്.
ഉദാഹരണത്തിന്, വിജയ നിരക്ക്, ഉപയോക്തൃ സംതൃപ്തി സ്കോറുകൾ, മറ്റ് മാതൃകകൾ ലൈവ് ട്രാഫിക് മേൽ നിരീക്ഷിക്കാം. ഓൺലൈൻ മൂല്യനിർണയത്തിന്റെ ഗുണം അഥവാ പ്രധാനമായ കാര്യങ്ങൾ ലബോറട്ടറി ശേഖരങ്ങളിൽ മുൻകൂട്ടി കാണാൻ കഴിയാത്തവ കണ്ടെത്തുന്നു — മോഡൽ ഡ്രിഫ്റ്റ് (എന്തിനാൽ ഏജന്റിന്റെ ഫലപ്രാപ്തി ഇന്പുട്ട് പാറ്റേണുകൾ മാറുമ്പോൾ കുറയുന്നു) കാണാം, പ്രതീക്ഷിക്കാത്ത ചോദ്യങ്ങളും സാഹചര്യങ്ങളും കണ്ടെത്താം. ഇത് യഥാർത്ഥ ലോകത്തിലെ ഏജന്റ് പെരുമാറ്റത്തിന്റെ വെളിപാടാണ്.
ഓൺലൈൻ മൂല്യനിർണയം അഭ്യന്തര ഉവാചാരവും പറയുന്നു, സാന്റ് സൃഷ്ടി ടെസ്റ്റുകളും A/B പരിശോധനകളും ഉൾപ്പെടുത്തി നടക്കാം (പുത്തൻ പതിപ്പ് പഴയ പതിപ്പിനോട് താരതമ്യം ചെയ്യാനായി സമാന്തരമായി പ്രവർത്തിപ്പിക്കുക). വെല്ലുവിളി യഥാർത്ഥ ഇടപെടലുകളിൽ വിശ്വാസയോഗ്യമായ ലേബലുകൾ അല്ലെങ്കിൽ സ്കോറുകൾ കിട്ടുക ബുദ്ധിമുട്ടാണ് – ഉപയോക്തൃ പ്രതികരണം അല്ലെങ്കിൽ ഡൗൺസ്ട്രീം മെട്രിക്കുകൾ (ഉദാ: ഉപയോക്താവ് ഫലം ക്ലിക്ക് ചെയ്തു എന്നോ) ആശ്രയിച്ചിരിക്കാം.
ഓൺലൈൻ മുതൽ ഓഫ്ലൈൻ വരെ മൂല്യനിർണയങ്ങൾ പരസ്പരം വ്യത്യസ്തമല്ല, പകരം പരസ്പരം പൂരകമാണ്. ഓൺലൈൻ നിരീക്ഷണത്തിൽ നിന്നും ലഭിക്കുന്ന洞 (ഉദാ: ഏജന്റ് മോശം പ്രവർത്തിക്കുന്ന ഉപയോക്തൃ ചോദ്യങ്ങളുടെ പുതിയ തരം) ഓഫ്ലൈൻ ടെസ്റ്റ് ഡാറ്റാസെറ്റുകൾ മെച്ചപ്പെടുത്താൻ ഉപയോഗിക്കാം. മറുവശത്ത്, ഓഫ്ലൈൻ ടെസ്റ്റുകളിൽ നല്ല പ്രകടനം ചെയ്യുന്ന ഏജന്റുകൾ കൂടുതൽ ആത്മവിശ്വാസത്തോടെ വിന്യസിച്ച് ഓൺലൈൻ നിരീക്ഷിക്കാം.
വാസ്തവത്തിൽ, പല ടീമുകളും ഒരു ലൂപ്പ് സ്വീകരിക്കുന്നു:
ഓഫ്ലൈൻ മൂല്യനിർണയം -> വിന്യസനം -> ഓൺലൈൻ നിരീക്ഷണം -> പുതിയ പരാജയ കേസുകൾ ശേഖരിക്കൽ -> ഓഫ്ലൈൻ ഡാറ്റാസറ്റിലേക്ക് ചേർക്കലും -> ഏജന്റ് പുനർനിര്മ്മാണം -> ആവർത്തനം.
എഐ ഏജന്റുകൾ പ്രൊഡക്ഷനിലേക്ക് വിന്യസിക്കുമ്പോൾ നിങ്ങൾക്ക് പല വെല്ലുവിളികളും നേരിടേണ്ടിവരും. ചില സാധാരണ പ്രശ്നങ്ങളും അവരുടെ പരിഹാര സാധ്യതകളും:
| പ്രശ്നം | സാധ്യമായ പരിഹാരം |
|---|---|
| എഐ ഏജന്റ് തികഞ്ഞും സ്ഥിരതയോടെ പ്രവർത്തിക്കുന്നില്ല | - ഏജന്റിന് നൽകുന്ന പ്രോംപ്റ്റ് മെച്ചപ്പെടുത്തുക; ലക്ഷ്യങ്ങൾ വ്യക്തമാക്കുക. - ടാസ്ക്കുകൾ തകർത്ത് സബ്ടാസ്ക്കുകളായി വിഭജിച്ച് അനേകം ഏജന്റുകൾ കൈകാര്യം ചെയ്യുന്നത് സഹായമാകുമെന്ന് തിരിച്ചറിയുക. |
| എഐ ഏജന്റ് തുടർച്ചയായ ലൂപ്പുകളിലേക്ക് പോകുന്നു | - പ്ലോസ്ലിഷ്ടോപ് നിബന്ധനകൾ വ്യക്തമാക്കുക; ഏജന്റ് പ്രവർത്തനം എപ്പോഴു അവസാനിപ്പിക്കണമെന്ന് അറിയണം. - കാര്യനിർവഹണവും ആലോചനയും ആവശ്യമായ സങ്കീർണ്ണ ടാസ്ക്കുകൾക്കായി വലുതും പ്രത്യേകമായ മോഡൽ ഉപയോഗിക്കുക. |
| എഐ ഏജന്റിന്റെ ഉപകരണ കോളുകൾ ശരിയായി പ്രവർത്തിക്കുന്നില്ല | - ഉപകരണത്തിന്റെ ഔട്ട്പുട്ട് ഏജന്റ് സിസ്റ്റത്തിനപ്പുറം പരിശോധിച്ച് സാധൂകരിക്കുക. - നിർവ്വചിച്ച പാരാമീറ്ററുകളും പ്രോംപ്റ്റുകളും ടൂളിന്റെ നാമകരണവും പൂർത്തിയാക്കുക. |
| മൾട്ടി- ഏജന്റ് സമർത്ഥ്യത്തിൽ സ്ഥിരതയില്ല | - ഓരോ എജന്റിനും നൽകുന്ന പ്രോംപ്റ്റുകൾ വ്യക്തവും വ്യത്യസ്തവുമായിരിക്കണമെന്ന് ഉറപ്പാക്കുക. - “റൂട്ടിംഗ്” അല്ലെങ്കിൽ കൺട്രോളർ ഏജന്റ് ഉപയോഗിച്ച് ഏജന്റ് തിരഞ്ഞെടുക്കുന്ന ഹിയറാർക്കിക്കൽ സിസ്റ്റം രൂപപ്പെടുത്തുക. |
ഈ പ്രശ്നങ്ങളിൽ ഭൂരിഭാഗം നിരീക്ഷണ സംവിധാനം ഉണ്ടെങ്കിൽ നന്നായി തിരിച്ചറിയാനാകും. മുകളിൽ ചര്ച്ച ചെയ്ത ട്രേസുകളും മെട്രിക്കുകളും ഏജന്റ് പ്രവൃത്തി ക്രമത്തിലെ പ്രശ്നങ്ങൾ കണ്ടെത്താൻ സഹായിക്കുകയും ഡീബഗ്ഗിംഗും ഒപ്റ്റിമൈസേഷനും വളരെ ഫലപ്രദമാക്കുകയും ചെയ്യും.
പ്രൊഡക്ഷനിലേക്ക് AI ഏജൻറുകൾ വിന്യസിക്കുന്നതിന്റെ ചെലവുകൾ നിയന്ത്രിക്കാൻ ചില തന്ത്രങ്ങൾ ഇവിടെ നൽകിയിരിക്കുന്നു:
ചെറിയ മോഡലുകൾ ഉപയോഗിക്കൽ: ചെറിയ ഭാഷാ മോഡലുകൾ (SLMs) ചില ഏജൻസിക് ഉപയോഗകേസുകളിൽ നല്ല പ്രകടനം കാണിക്കാം, കൂടാതെ ചെലവുകൾ ശ്രദ്ധേയമായി കുറയും. മുമ്പ് പറഞ്ഞത് പോലെ, വലിയ മോഡലുകളുമായി പ്രകടനം വിലയിരുത്താനും താരതമ്യം ചെയ്യാനും ഒരു വിലയിരുത്തൽ സംവിധാനം നിർമ്മിക്കുന്നത് നിങ്ങൾക്കുള്ള ഉപയോഗകേസിൽ SLM എത്രത്തോളം നല്ല പ്രകടനം ചെലുത്തുമെന്ന് മനസ്സിലാക്കാനുള്ള ഏറ്റവും മികച്ച മാർഗമാണ്. ഉദ്ദേശ്യ വിവാഹനം അല്ലെങ്കിൽ പാരാമീറ്റർ കണ്ടെടുക്കൽ പോലുള്ള ലളിതമായ ജോലികൾക്കായി SLMകൾ ഉപയോഗിക്കുന്നതിനായി പരിഗണിക്കുക, സങ്കീർണ്ണമായ ചിന്തനത്തിനായി വലിയ മോഡലുകൾ സംരക്ഷിച്ച് വയ്ക്കുക.
റൂട്ടർ മോഡൽ ഉപയോഗിക്കൽ: സമാനമായ ഒരു തന്ത്രമാണ് മോഡലുകളുടെ വൈവിധ്യവും വലുപ്പവും ഉപയോഗിക്കുക. നിങ്ങളുടെ ആവശ്യാനുസരണം നിർമ്മലമായ LLM/SLM അല്ലെങ്കിൽ സർവർലെസ് ഫംഗ്ഷൻ ഉപയോഗിച്ച് പർപ്പർ מורכതയുടെ അടിസ്ഥാനത്തിൽ അപേക്ഷകൾ ഏറ്റവും അനുയോജ്യമായ മോഡലുകളിൽ റൂട്ടുചെയ്യാം. ഇത് ചെലവുകൾ കുറയ്ക്കാനും ശരിയായ ജോലിയിലുളള പ്രകടനവും ഉറപ്പാക്കാനും സഹായിക്കും. ഉദാഹരണത്തിന്, ലളിതമായ ചോദ്യംചോദനങ്ങൾ ചെറിയ, വേഗമേറിയ മോഡലുകളിലേക്ക് റൂട്ടുചെയ്യുക, സങ്കീർണ്ണമായ ചിന്തന ജോലികൾക്കായി മാത്രം വിലവേറിയ വലിയ മോഡലുകൾ ഉപയോഗിക്കുക.
പ്രതികരണങ്ങൾ ക്യാഷ് ചെയ്യൽ: സാധാരണമായ ആവശ്യങ്ങളും ജോലികളും തിരിച്ചറിയുകയും ഏജൻസിക് സംവിധാനം വഴി നിങ്ങൾക്കു മുന്നേ പ്രതികരണങ്ങൾ നൽകുകയും ചെയ്യുന്നത് സമാനമായ അപേക്ഷകളുടെ അളവ് കുറക്കാനുള്ള നല്ല മാർഗമാണ്. കൂടുതലെളിയയ AI മോഡലുകൾ ഉപയോഗിച്ച് നിങ്ങളുടെ ക്യാഷ് ചെയ്ത അപേക്ഷകളോട് ഒരു പുതിയ അപേക്ഷ എത്രത്തോളം സാമ്യം കാണിക്കുന്നു എന്ന് കണ്ടെത്തുന്നതിനുള്ള ഒരു പ്രവാഹം കൂടി നടപ്പിലാക്കാം. ഇത് പെട്ടെന്നുള്ള ചോദ്യങ്ങൾക്കും സാധാരണ പ്രവർത്തന പ്രവാഹങ്ങൾക്കും ചെലവുകൾ വലിയ തോതിൽ കുറയ്ക്കാൻ സഹായിക്കും.
ഈ വിഭാഗത്തിലെ ഉദാഹരണ നോട്ട്ബുക്ക് ഉപയോഗിച്ച്, എങ്ങനെ ഏജന്റിന്റെ നിർണയ ശേഷിയും നിരീക്ഷണമുള്ള ഉപകരണങ്ങളും ഉപയോഗിച്ച് നാം അവലോകനം നടത്തുകയും വിലയിരുത്തുകയും ചെയ്യാമെന്ന് കാണാം.
മറ്റ് പഠിതാക്കളെ കാണാനും, ഓഫീസർ മണിക്കൂറുകളിൽ പങ്കെടുക്കാനും, നിങ്ങളുടെ AI ഏജന്റ് ചോദ്യങ്ങൾക്ക് ഉത്തരങ്ങൾ കിട്ടാനും Microsoft Foundry Discord -ലേക്ക് ചേരുക.
അസൂയാ: ഈ രേഖ AI പരിഭാഷാ സേവനം Co-op Translator ഉപയോഗിച്ച് പരിഭാഷപ്പെടുത്തിയതാണ്. ഞങ്ങൾ ശരിയായ വിവർത്തനത്തിന് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, автомат отличие автоматические переводы могут содержать ошибки или неточности. അതിനാൽ, യഥാർത്ഥ രേഖയുടെ സാദ്ധ്യത ഭാഷയിലുള്ള പകർപ്പാണ് അതിന്റെ വിശ്വസനീയ ഉറവിടം എന്ന കാര്യം ശ്രദ്ധിക്കുക. പ്രധാന വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യപരിഭാഷ നിർബന്ധമാണ്. ഈ പരിഭാഷ ഉപയോഗിച്ച് ഉണ്ടാകുന്ന തെറ്റിദ്ധാരണകൾക്കും വ്യാഖ്യാനപരമായി വരാനിടയുള്ള പ്രശ്നങ്ങൾക്കും ഞങ്ങൾക്ക് ബാധ്യതയില്ല.