ai-agents-for-beginners

പ്രൊഡക്ഷനിലെ എഐ ഏജന്റുകള്‍: നിരീക്ഷണവും മൂല്യനിർണയവും

എഐ ഏജന്റുകള്‍ പ്രായോഗിക പരീക്ഷണ മാതൃകകളിൽ നിന്നു യഥാർത്ഥ പ്രയോജനങ്ങളിൽ എത്തുന്നതോടെ, അവയുടെ പെരുമാറ്റത്തെ മനസ്സിലാക്കുവാനും, അവയുടെ പ്രകടനം നിരീക്ഷിക്കാനും, അവയുടെ ഔട്ട്പുട്ടുകൾ ക്രമ്മനുപാതമായി മൂല്യനിർണയം നടത്തുവാനും കഴിവ് അനിവാര്യമാണ്.

പഠനലക്ഷ്യങ്ങള്‍

ഈ പാഠം പൂർത്തിയാക്കിയ ശേഷം, നിങ്ങൾക്ക് അറിയാം/ബോധ്യമായിരിക്കും:

ഏജന്റ് നിരീക്ഷണവും മൂല്യനിർണയത്തിന്റെ മ uya്ന മുഖ്യ ആശയങ്ങള്‍
ഏജന്റുകളുടെ പ്രകടനം, ചെലവുകള്‍, ഫലപ്രാപ്തി മെച്ചപ്പെടുത്താനുള്ള സാങ്കേതിക വിദ്യകള്‍
നിങ്ങളുടെ എഐ ഏജന്റുകളെ ക്രമ മുന്നിട്ടും എങ്ങനെ മൂല്യനിർണയം ചെയ്യാമെന്ന്
എഐ ഏജന്റുകൾ പ്രൊഡക്ഷനിലേക്ക് വിന്യസിക്കുമ്പോൾ ചെലവുകൾ നിയന്ത്രിക്കൽ എങ്ങനെ ചെയ്യാമെന്ന്
Microsoft Agent Framework ഉപയോഗിച്ച് നിർമ്മിച്ച ഏജന്റുകളെ എങ്ങനെ ഇൻസ്‌ട്രുമെന്റ് ചെയ്യാമെന്ന്

നിങ്ങളുടെ “കറുത്ത ബോക്സ്” ഏജന്റുകളെ പരവതാനീയമായ, നിയന്ത്രിക്കാവുന്ന, വിശ്വസനീയമായ സംവിധാനങ്ങളാക്കി മാറ്റാനുള്ള വിജ്ഞാനം നിങ്ങളെ സജ്ജമാക്കുകയാണ് ലക്ഷ്യം.

കുറിപ്പ്: സുരക്ഷിതവും വിശ്വസനീയവുമായ എഐ ഏജന്റുകൾ വിന്യസിക്കുക അത്യന്താപേക്ഷിതമാണ്. Building Trustworthy AI Agents പാഠവും പരിശോധിക്കുക.

ട്രേസുകളും സ്‌പാൻസുകളും

Langfuse അല്ലെങ്കിൽ Microsoft Foundry പോലുള്ള നിരീക്ഷണ ഉപകരണങ്ങൾ സാധാരണയായി ഏജന്റ് പ്രവർത്തനങ്ങൾ ട്രേസുകളും സ്‌പാൻസുകളും ആയി പ്രതിനിധീകരിക്കുന്നു.

ട്രേസ് ആരംഭത്തിലേ നിന്ന് അവസാനം വരെയുള്ള ഒരു പൂർത്തിയായ ഏജന്റ് പ്രവർത്തനം പ്രതിനിധീകരിക്കുന്നു (ഉദാഹരണം: ഒരു ഉപഭോക്തൃ ചോദ്യം കൈകാര്യം ചെയ്യല്‍).
സ്‌പാൻസ് ട്രേസിനുള്ളിലെ വ്യക്തിഗത ഘട്ടങ്ങളാണ് (ഉദാഹരണം: ഒരു ഭാഷ മാതൃക വിളിക്കുക അല്ലെങ്കിൽ ഡാറ്റ ശേഖരിക്കൽ).

Langfuse-യിലെ ട്രേസ് ട്രി

നിരീക്ഷണം ഇല്ലാതിരുന്നാൽ, ഒരു എഐ ഏജന്റ് “കറുത്ത ബോക്സ്” പോലെയാണ് തോന്നുക — അതിന്റെ ആഭ്യന്തരാവസ്ഥയും നിരീക്ഷണവും അജ്ഞാതമാണെന്നും പ്രശ്‌നങ്ങൾ നിർണയിക്കാനും പ്രകടനം മെച്ചപ്പെടുത്താനും ബുദ്ധിമുട്ടുള്ളതായും വരുന്നു. നിരീക്ഷണത്തോടെ, ഏജന്റുകൾ “മണൽപ്പനിയുള്ള ബോക്സുകളായി” മാറുന്നു, അവ വിശ്വസനീയതക്കും പ്രവര്‍ത്തനം നടപടിക്രമപ്രകാരം സാങ്കേതിക വിശകലനത്തിനും വഴിയൊരുക്കുന്നു.

പ്രൊഡക്ഷൻ പരിസ്ഥിതികളിൽ നിരീക്ഷണത്തിന്റെ പ്രാധാന്യം

എഐ ഏജന്റുകളെ പ്രൊഡക്ഷൻ പരിസ്ഥിതികളിലേക്ക് മാറ്റുമ്പോൾ പുതിയ വെല്ലുവിളികളും ആവശ്യങ്ങളും Sams പരസ്പരം വരുന്നു. നിരീക്ഷണം ഇതിൽ ഒന്നല്ല “എന്തോ കൂടി ഉണ്ടാകണം” എന്നതല്ല, നിർണായക ശേഷിയാണ്:

ഡീബഗ്ഗിംഗും റൂട്ട് കാരുണ്യ വിശകലനവും: ഏജന്റ് പരാജയപ്പെടുകയോ അനിയന്ത്രിത ഔട്ട്പുട്ട് സൃഷ്‌ടിക്കുന്നിടത്തോ, സ്റ്റാർട്ട് നടപടികളുടെ ഉറവിടം കണ്ടെത്താൻ നിരീക്ഷണ ഉപകരണങ്ങൾ ട്രേസുകൾ നൽകുന്നു. ഇത് ബഹുവിധ LLM കോൾകൾ, ഉപകരണ ഇടപെടലുകൾ, നിബന്ധനാ ലാജിക് ഉൾപ്പെടുത്തിയ സങ്കീർണ്ണ ഏജന്റുകളിൽ പ്രത്യേക പ്രാധാന്യമുള്ളതാണ്.
ലാറ്റൻസിയും ചെലവുകളും നിയന്ത്രണം: എഐ ഏജന്റുകൾ സാധാരണയായി ടോക്കണുകളോ കോളുകളോ അടിസ്ഥാനമാക്കി ബില്ലിംഗ് ചെയ്യുന്ന LLM കളിലും മറ്റ് ബാഹ്യ API കളിലും ആശ്രയിച്ചിരിക്കുന്നു. നിരീക്ഷണം ഈ കോളുകൾ കൃത്യമായി ട്രാക്ക് ചെയ്യാൻ സഹായിക്കുന്നു, അതിലൂടെ മന്ദഗതിയുള്ള അല്ലെങ്കിൽ ചെലവേറിയ ഓപ്പറേഷനുകൾ തിരിച്ചറിയാനാകും. ഇത് പ്രോംപ്റ്റുകൾ മെച്ചപ്പെടുത്താനും ഫലപ്രദ മാനദണ്ഡങ്ങൾ തിരഞ്ഞെടുക്കാനും പ്രവർത്തന ക്രമീകരണങ്ങൾ പുനഃരൂപപ്പെടുത്താനും സഹായിക്കുന്നു.
വിശ്വാസം, സുരക്ഷ, അനുസരണനിയമം: പല പ്രകാരണങ്ങളിലും ഏജന്റുകൾ സുരക്ഷിതവും ന്യായമായും പ്രവർത്തിക്കുന്നുണ്ടെന്ന് ഉറപ്പാക്കണം. നിരീക്ഷണം ഏജന്റിന്റെ പ്രവർത്തനങ്ങളുടെയും തീരുമാനങ്ങളുടെയും ഓഡിറ്റ് ട്രെയ്ൽ നൽകുന്നു. ഇത് പ്രേംപ്റ്റ് ഇൻജക്ഷൻ, ഹാനികരം ഉള്ള ഉള്ളടക്കം സൃഷ്ടിക്കൽ, വ്യക്തിഗതവിവരങ്ങൾ (PII) തെറ്റായ കൈകാര്യം പോലുള്ള പ്രശ്‌നങ്ങൾ തിരിച്ചറിയാനും കുറയ്ക്കാനുമുള്ളതിന് ഉപയോഗിക്കാം. ഉദാഹരണത്തിന്, ഏജന്റ് പ്രത്യേക പ്രതികരണം എന്തുകൊണ്ട് നൽകിയെന്ന് അല്ലെങ്കിൽ പ്രത്യേക ഉപകരണം ഉപയോഗിച്ചതിന്റെ കാരണമെന്തെന്ന് ട്രേസുകൾ കാണിച്ചു മനസ്സിലാക്കാം.
തുടർച്ചയായ മെച്ചപ്പെടുത്തൽ ലൂപ്പുകൾ: നിരീക്ഷണ ഡാറ്റ നിത്യവികസന പ്രക്രിയയുടെ അടിസ്ഥാനമാണ്. ഏജന്റുകൾ യഥാർത്ഥ ലോകത്തിൽ എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്ന് നിരീക്ഷിച്ച്, ടീമുകൾ മെച്ചപ്പെടുത്തേണ്ട മേഖലകൾ തിരിച്ചറിയുകയും, മോഡൽ ഫൈൻ-ട്യൂണിംഗിനുള്ള ഡാറ്റ ശേഖരിക്കുകയും, മാറ്റങ്ങളുടെ പ്രഭാവം സ്ഥിരീകരിക്കുകയും ചെയ്യാം. ഇത് ഒരു പ്രതികരണ ചക്രം സൃഷ്ടിക്കുന്നു, കൂടാതെ പ്രൊഡക്ഷൻ ദൃശ്യമാക്കലിൽ നിന്നുള്ള ഇൻസൈറ്റുകൾ ഓഫ്‌ലൈൻ പരീക്ഷണങ്ങളിൽ ഉപയോഗിച്ച് ഏജന്റ് പ്രകടനം ക്രമാനുഗതമായി മെച്ചപ്പെടുത്തുന്നു.

പ്രധാനമായ കാര്യങ്ങൾ ട്രാക്ക് ചെയ്യേണ്ടത്

ഏജന്റുകളുടെ പെരുമാറ്റം നിരീക്ഷിക്കുകയും മനസ്സിലാക്കുകയും ചെയ്യാൻ, 다양한 മെട്രിക്കുകളും സിഗ്നലുകളും ട്രാക്ക് ചെയ്യണം. ഏജന്റിന്റെ ലക്ഷ്യത്തിൽ ആശ്രയിച്ച് പ്രത്യേക മെട്രിക്കുകൾ വ്യത്യസ്തമായിരിക്കാം, എന്നാൽ ചിലത് സർവകാലികമായി പ്രധാനമാണ്.

നിരീക്ഷണ ടൂളുകൾ സാധാരണയായി ട്രാക്ക് ചെയ്യുന്ന പ്രധാന മെട്രിക്കുകൾ:

ലാറ്റൻസി: ഏജന്റ് എത്ര വേഗത്തിലും പ്രതികരിക്കുന്നു? നാൾവഴിച്ചിരിപ്പാണ് ഉപയോഗകൃതി ദോഷകരം. ഏജന്റ് റൺസിന്റെ പ്രവർത്തനങ്ങളും വ്യക്തിഗത ഘടകങ്ങളും ട്രേസിങ്ങിലൂടെ ലാറ്റൻസി അളക്കണം. ഉദാഹരണത്തിന്, ഒരേ ഏജന്റ് എല്ലാ മോഡല്‍ കോളുകളുടെയും സംയോജിത സമയം 20 സെക്കന്റ് എങ്കിൽ വേഗമുള്ള മോഡൽ ഉപയോഗിക്കുക അല്ലെങ്കിൽ മൾട്ടി മോഡൽ കോൾ പാരലൽ ആയി പ്രവർത്തിപ്പിക്കുക.

ചെലവുകൾ: ഏജന്റ് റണിന് ചിന്തക്കാനുള്ള ചെലവ് എത്ര? എഐ ഏജന്റുകൾ ടോക്കണുകളുടെ അടിസ്ഥാനത്തിൽ ബില്ല് ചെയ്യുന്ന LLM കോളുകളും ഏകദേശം ഓരോക്കോൾ ബിൽ ചെയ്യുന്ന ബാഹ്യ API കളിലും ആശ്രയിച്ചിരിക്കുന്നു. ടൂൾ ചുരുക്കം കൂടുതൽ ഉപയോഗിക്കുകയോ ഒന്നിലധികം പ്രോംപ്റ്റുകൾ ഉപയോഗിക്കുകയോ ചെയ്തു ചെലവുകൾ വേഗത്തിൽ ഉയരാം. ഉദാഹരണത്തിന്, ഏജന്റ് ഒരു LLM അഞ്ചു തവണ വിളിക്കുന്നുവെങ്കിൽ ചെലവ് യുക്തമാണോ എന്ന് പരിശോധിക്കണം, അല്ലെങ്കിൽ കോൾസ് കുറയ്ക്കുകയോ കുറച്ച വിലയുള്ള മോഡൽ ഉപയോഗിക്കുകയോ ചെയ്യാമോ എന്ന്. ലൈവ് നിരീക്ഷണം അനധികൃതമായി ചെലവുകൾ ഉയരുന്നതിനെ തിരിച്ചറിയാനും സഹായിക്കും (ഉദാഹരണം ബഗുകൾ കാരണം API ലൂപ്പുകൾ).

അപേക്ഷ തെറ്റുകൾ: എത്ര അപേക്ഷകൾ പരാജയപ്പെട്ടു? ഇത് API പിഴവുകൾ അല്ലെങ്കിൽ ടൂൾ കോളുകളുടെ പരാജ്യം ഉൾക്കൊള്ളാം. പ്രൊഡക്ഷനിൽ ഏജന്റ് കൂടുതൽ ബലമായി പ്രവർത്തിക്കാൻ, ഫാൾബാക്കുകൾ അല്ലെങ്കിൽ റിട്രൈകൾ ഒരുക്കാം, ഉദാ: LLM പ്രൊവൈഡർ A പ്രവർത്തിച്ചതിൽ പരാജയം ഉണ്ടെങ്കിൽ ബാക്കപ്പ് ആയി LLM പ്രൊവൈഡർ B ഉപയോഗിക്കുക.

ഉപഭോക്തൃ പ്രതികരണം: നേരിട്ട് ഉപഭോക്തൃ മൂല്യനിർണയങ്ങൾ മൂല്യവത്തായ洞ുകൾ നൽകുന്നു. ഇത് വ്യക്തമായ റേറ്റിംഗുകൾ (👍thumbs-up/👎down, ⭐1-5 സ്റ്റാർസ്) അല്ലെങ്കിൽ എഴുത്ത് അഭിപ്രായങ്ങൾ ഉൾക്കൊള്ളാം. സ്ഥിരമായ നെഗറ്റീവ് പ്രതികരണങ്ങൾ ഏജന്റ് പ്രതീക്ഷക്കനുസരിച്ച് പ്രവർത്തിക്കുന്നില്ലെന്ന സൂചനയാണ്.

നിങ്ങളുടെ നന്ദി നൽകിയില്ലേ?: ഉപഭോക്തൃ പെരുമാറ്റങ്ങൾ വ്യക്തമായ റേറ്റിംഗുകൾ ഇല്ലാതെയും ആശയങ്ങൾ നൽകുന്നു. ഇത് ചോദ്യം പുനരാവൃത്തി, ആവർത്തിക്കുന്ന ചോദ്യം ചോദിക്കൽ അല്ലെങ്കിൽ റിട്രൈ ബട്ടൺ ക്ലിക്ക് ചെയ്യൽ ഉൾപ്പെടാം. ഉദാ: ഉപഭോക്താക്കൾ ഒരേ ചോദ്യം ആവർത്തിക്കുന്നുവെന്ന് കാണുമ്പോൾ ഇത് ഏജന്റ് പ്രതീക്ഷത്തോട് പൊരുത്തപ്പെടുന്നില്ലെന്നും സൂചിപ്പിക്കുന്നു.

അകൃത്യത: ഏജന്റ് എത്രത്തോളം ശരിയായ അല്ലെങ്കിൽ ആഗ്രഹീത ഔട്ട്പുട്ടുകൾ തയാറാക്കുന്നു? അകൃത്യത വ്യത്യസ്തമായി നിർവചിക്കപ്പെടുന്നു (ഉദാ: പ്രശ്നപരിഹാര കൃത്യത, വിവര ശേഖരണ കൃത്യത, ഉപയോക്തൃ സംതൃപ്‌തി). ആദ്യഘട്ടം വിജയത്തെ എങ്ങനെ നിർവചിക്കാമെന്നാണെന്ന് നിർവ്വചിക്കുകയാണ്. സ്വയംക്രമീകരിച്ച പരിശോധനകൾ, മൂല്യനിർണയ സ്കോറുകൾ, ടാസ്‌ക്ക് പൂർത്തീകരണ ലേബലുകൾ വഴി അകൃത്യം ട്രാക്ക് ചെയ്യാം. ഉദാഹരണം ആയി, ട്രേസുകൾ “വിജയം” അല്ലെങ്കിൽ “പരാജയം” എന്നിങ്ങനെ അടയാളപ്പെടുത്താം.

സ്വയംക്രമ ബഹുമതികൾ: സ്വയംക്രമ മൂല്യനിർണയങ്ങളോ കൂടെ സജ്ജീകരിക്കാം. ഉദാഹരണത്തിന്, ഏജന്റിന്റെ ഔട്ട്പുട്ടിനെ എങ്ങനെ സഹായകരമല്ല, കൃത്യമായോ അല്ലയോ എന്ന് LLM ഉപയോഗിച്ച് സ്കോർ ചെയ്യാം. ഒന്നിലധികം ഓപ്പൺ സോഴ്‌സ് ലൈബ്രറികളും ലഭ്യമാണ്, ഉദാ: RAG ഏജന്റുകള്‍ക്കായി RAGAS, ഹാനികര ഭാഷയോ പ്രേംപ്റ്റ് ഇൻജക്ഷനോ തിരിച്ചറിയാൻ LLM Guard.

പ്രായോഗികമായി, ഈ മെട്രിക്കുകളുടെ സംയോജനം എഐ ഏജന്റിന്റെ ആരോഗ്യം ഏറ്റവും സമഗ്രമായി കാണിക്കുന്നു. ഈ പാഠത്തിലെ ഉദാഹരണ നോട്ട്ബുക്ക് ഇത്തരത്തിലുള്ള മെട്രിക്കുകൾ യഥാർത്ഥ ഉദാഹരണങ്ങളോട് കാണിക്കും, എന്നാൽ ആദ്യം സാധാരണ മൂല്യനിർണയ പ്രവൃത്തിപദ്ധതി എങ്ങനെ ആയിരിക്കും മനസ്സിലാക്കാം.

നിങ്ങളുടെ ഏജന്റ് ഇൻസ്‌ട്രുമെന്റ് ചെയ്യുക

ട്രേസിങ് ഡാറ്റ ശേഖരിക്കാനായി, നിങ്ങൾക്ക് നിങ്ങളുടെ കോഡ് ഇൻസ്‌ട്രുമെന്റ് ചെയ്യേണ്ടതുണ്ട്. ലക്ഷ്യം ഏജന്റ് കോഡിനെ ട്രേസുകളും മെട്രിക്കുകളും പുറപ്പെടുവിക്കാൻ ഇന്സ്ട്രുമെന്റുചെയ്യലാണ്, അവ നിരീക്ഷണ പ്ലാറ്റ്ഫോം ക്യാപ്ചർ ചെയ്ത് പ്രോസസ് ചെയ്ത് ദൃശ്യവൽക്കരിക്കാവുന്നതാണ്.

OpenTelemetry (OTel): OpenTelemetry LLM നിരീക്ഷണത്തിനായി വ്യവസായ സ്റ്റാൻഡേർഡായി ഉയർന്നു. ഇത് ടെലിമെട്രി ഡാറ്റ ജനനത്തിനും ശേഖരണത്തിനും എക്‌സ്‌പോർട്ടിംഗിനും API കളും SDK കളും ടൂളുകളും നൽകുന്നു.

നിരവധി ഇൻസ്‌ട്രുമെന്റേഷൻ ലൈബ്രറികൾ നിലവിലുള്ള ഏജന്റ് ഫ്രെയിംവർക്കുകളെ വൃത്തിയാക്കി OpenTelemetry സ്‌പാൻസ് ഒരു നിരീക്ഷണ ഉപകരണത്തിലേക്ക് എളുപ്പത്തിൽ എക്‌സ്‌പോർട്ട് ചെയ്യാൻ ചെയ്യുന്നു. Microsoft Agent Framework സ്വാഭാവികമായും OpenTelemetry-യുമായി ഇന്റഗ്രേറ്റ് ചെയ്യുന്നു. கீழെ MAF ഏജന്റ് ഇൻസ്‌ട്രുമെന്റേഷന് ഉദാഹരണം:

from agent_framework.observability import get_tracer, get_meter

tracer = get_tracer()
meter = get_meter()

with tracer.start_as_current_span("agent_run"):
    # ഏജന്റ് എക്‌സിക്യൂഷൻ സ്വയമേവ ട്രേസ് ചെയ്യപ്പെടുന്നു
    pass

ഈ അധ്യായത്തിലെ ഉദാഹരണ നോട്ട്ബുക്ക് നിങ്ങളുടെ MAF ഏജന്റ് എങ്ങനെ ഇൻസ്‌ട്രുമെന്റ് ചെയ്യാമെന്ന് പ്രദർശിപ്പിക്കും.

മാനുവൽ സ്‌പാൻ നിർമ്മാണം: ഇൻസ്‌ട്രുമെന്റേഷൻ ലൈബ്രറികൾ നല്ല അടിസ്ഥാനമാണ് നൽകുന്നത്, എന്നാൽ ചിലപ്പോൾ കൂടുതൽ വിശദമായ കസ്റ്റം വിവരങ്ങൾ ആവശ്യമായിരിക്കും. നിങ്ങൾക്ക് മാനുവലായി സ്‌പാൻസ് സൃഷ്ടിക്കാം, കസ്റ്റം ആപ്ലിക്കേഷൻ ലൊജിക്ക് ചേർക്കാം. വലുതൊ പ്രധാനപ്പെട്ടത്, സ്വയംകൃതമോ മാനുവലായോ സൃഷ്ടിച്ച സ്‌പാൻസുകൾ കസ്റ്റം ഗുണങ്ങൾ (ടാഗുകളോ മെറ്റാഡേറ്റയോ എന്ന് അറിയപ്പെടുന്നു) ചേർക്കുന്നതിലൂടെ സമ്പുഷ്ടമാക്കാനാകും. ഇതിൽ ബിസിനസ്സ്-സ്പെസിഫിക് ഡാറ്റ, ഇടനിലക്കൽ കണക്കുകൾ, ഡീബഗ്ഗിംഗിന് ഉപകരിക്കുന്ന ഏതെങ്കിലും പ്ര.context എന്നിവ ഉൾപ്പെടാം, ഉദാ: user_id, session_id, അല്ലെങ്കിൽ model_version.

Langfuse Python SDK ഉപയോഗിച്ച് മാനുവലായി ട്രേസുകളും സ്‌പാൻസുകളും സൃഷ്ടിക്കുന്ന ഉദാഹരണം:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

ഏജന്റ് മൂല്യനിർണയം

നിരീക്ഷണം മെട്രിക്കുകൾ നൽകുന്നു, എന്നാൽ മൂല്യനിർണയം ആ ഡാറ്റ വിശകലനം ചെയ്തുകൊണ്ട് (പരീക്ഷണങ്ങൾ നടത്തിയും) എഐ ഏജന്റ് എങ്ങനെ പ്രവർത്തിക്കുന്നു എന്നും മെച്ചപ്പെടുത്താൻ സാധിക്കുന്നതിന്റെയും ചുരുക്കമാണ്. മറ്റെല്ലാ വാക്കിൽ, നിങ്ങൾക്ക് ആ ട്രേസുകളും മെട്രിക്കുകളും ലഭിച്ചുകഴിഞ്ഞാൽ, അവ എങ്ങനെ ഉപയോഗിച്ച് ഏജന്റിനെ വിധിശുദ്ധമാക്കുകയും തീരുമാനം എടുക്കുകയും ചെയ്യാം?

നിയമിത മൂല്യനിർണയം നിർണായകമാണ്, കാരണം ഏജന്റുകൾ പൊതുവെ നിഷ്പ്രഭമായില്ല; അവർ വിവരണം ഇല്ലാതെ, അപ്ഡേറ്റുകളിലൂടെയോ മോഡൽ പെരുമാറ്റം മാറ്റത്തിലൂടെയോ വളരാം – മൂല്യനിർണയം ഇല്ലെങ്കിൽ നിങ്ങളുടെ “ έξ്ജ്ഞാനമുള്ള ഏജന്റ്” സുതാര്യമായി പ്രവർത്തിക്കുന്നുണ്ടോ എന്നും അല്ലെങ്കിൽ പിന്നോട്ടാണോ എന്നുമറിയാൻ കഴിയില്ല.

എഐ ഏജന്റുകളുടെ മൂല്യനിർണയങ്ങൾക്ക് രണ്ട് വിഭാഗമുണ്ട: ഓൺലൈൻ മൂല്യനിർണയം અને ഓഫ്‌ലൈൻ മൂല്യനിർണയം. രണ്ടും വിലപ്പെട്ടതാണ്, പരസ്പരം പൂരകമാണ. സാധാരണയായി ഞങ്ങൾ ഓഫ്‌ലൈൻ മൂല്യനിർണയത്തോടെ തുടങ്ങുന്നു, കാരണം ഏജന്റിനെ വിന്യസിക്കുന്നതിന് മുമ്പുള്ള നിശ്ചിത തരം നടത്തൽ ആണ് ഇത്.

ഓഫ്‌ലൈൻ മൂല്യനിർണയം

Langfuse ൽ ഡാറ്റാസെറ്റ് ഇനങ്ങൾ

ഈ സാഹചര്യത്തിൽ, ഏജന്റ് നിയന്ത്രിത സാഹചര്യത്തിൽ, സാധാരണയായി ടെസ്റ്റ് ഡാറ്റാസെറ്റുകൾ ഉപയോഗിച്ചു, അതായത് സജീവ ഉപയോക്തൃ ചോദ്യങ്ങൾ അല്ല, മൂല്യനിർണയം ചെയ്യപ്പെടുന്നു. നിങ്ങൾ ക്യൂറേറ്റ് ചെയ്ത ഡാറ്റാസെറ്റ് ഉപയോഗിച്ച് അവിടെ അഭ്യസിക്കുന്നില്ലെങ്കിൽ എന്താണ് പ്രതീക്ഷിക്കുന്ന ഔട്ട്പുട്ടോ ശരിയായ പെരുമാറ്റവുമാണെന്ന് നിങ്ങൾ അറിയുകയും തുടർന്ന് ഏജന്റ് അവിടെ പ്രവർത്തിപ്പിക്കുകയും ചെയ്യുന്നു.

ഉദാഹരണത്തിന്, നിങ്ങൾ ഒരു ഗണിത പ്രശ്ന ഏജന്റ് നിർമ്മിച്ചാൽ, നിങ്ങൾക്ക് 100 പ്രശ്നങ്ങളോടുകൂടിയ ഒരു ടെസ്റ്റ് ഡാറ്റാസെറ്റ് ഉണ്ടാകാം, അത് അറിയപ്പെടുന്ന ഉത്തരങ്ങളോടുകൂടിയതാണ്. ഓഫ്ലൈൻ മൂല്യനിർണയം സാധാരണയായി വികസന സമയത്ത് (CI/CD പൈപ്പ്‍ലൈനുകളുടെ ഭാഗമാകുമോ) മെച്ചപ്പെടുത്തലുകൾ പരിശോധിക്കാനും തിരിച്ചടികളെ തടയാനുമുള്ളതാണ്. ഇതിന്റെ നേട്ടം ഇത് പുനരാവൃത്തി സാധ്യവും ഭൂമിസത്യം ഉള്ളതിനാൽ കൃത്യതാ മെട്രിക്കുകൾ വ്യക്തമാണെന്നും ആണ്. ഉപയോക്തൃ ചോദ്യങ്ങൾ അനുകരിച്ച് ഏജന്റിന്റെ പ്രതികരണങ്ങൾ ആശയപരമായ ഉത്തരങ്ങളുമായി താരതമ്യം ചെയ്യാമോ, സ്വയംക്രമ മെട്രിക്കുകൾ ഉപയോഗിക്കാമോ എന്നും ചെയ്യാം.

ഓഫ്‌ലൈൻ മൂല്യനിർണയത്തിൽ പ്രധാന വെല്ലുവിളി നിങ്ങളുടെ ടെസ്റ്റ് ഡാറ്റാസെറ്റ് സമഗ്രവും ബന്ധപ്പെട്ടതുമായിട്ട് ഇരിക്കുകയുമാണ് — ഏജന്റ് ഒരു നിശ്ചിത ടെസ്റ്റ് സെറ്റിൽ നല്ല പ്രകടനം കാണിച്ചാലും, പ്രൊഡക്ഷനിൽ വളരെ വ്യത്യസ്തമായ ചോദ്യങ്ങൾ നേരിടാം. അതിനാൽ ടെസ്റ്റ് സെറ്റുകളിൽ പുതിയ തീയതികളും ഉദാഹരണങ്ങളും ഉൾപ്പെടുത്തലും നടത്തണം, യാഥാർത്ഥ്യമേറിയ സാഹചര്യങ്ങളെ പ്രതിഫലിപ്പിക്കുന്നവയാകണമെന്നും. ചെറിയ “സ്മോക്ക് ടെസ്റ്റ്” കേസുകളും വിശാലമായ മൂല്യനിർണയ സെറ്റുകളും മിശ്രിതം നല്ലതാണ്: ചെറിയവ വേഗത്തിൽ പരിശോധിക്കാൻ, വലിയവ വ്യാപക പ്രകടനം നിരീക്ഷിക്കാൻ.

ഓൺലൈൻ മൂല്യനിർണയം

നിരീക്ഷണ മെട്രിക്കുകളുടെ അവലോകനം

ഈയിടം ഏജന്റിനെ ടെസ്റ്റ് ഡാറ്റയുടെ പുറമേ യഥാർത്ഥ സമയങ്ങളിൽ, വളരെ സംജീവിത ഷെറ്റിംഗിൽ, പ്രൊഡക്ഷനിൽ പ്രവർത്തനത്തിനിടെ മൂല്യനിർണയം ചെയ്യുന്നതാണു. ഓൺലൈൻ മൂല്യനിർണയത്തിൽ യഥാർത്ഥ ഉപയോക്തൃ ഇടപെടലുകൾ നിരീക്ഷിക്കുന്നതും തുടർച്ചയായി ഫലങ്ങൾ വിശകലനം ചെയ്യുന്നുമാണ്.

ഉദാഹരണത്തിന്, വിജയ നിരക്ക്, ഉപയോക്തൃ സംതൃപ്തി സ്കോറുകൾ, മറ്റ് മാതൃകകൾ ലൈവ് ട്രാഫിക് മേൽ നിരീക്ഷിക്കാം. ഓൺലൈൻ മൂല്യനിർണയത്തിന്റെ ഗുണം അഥവാ പ്രധാനമായ കാര്യങ്ങൾ ലബോറട്ടറി ശേഖരങ്ങളിൽ മുൻകൂട്ടി കാണാൻ കഴിയാത്തവ കണ്ടെത്തുന്നു — മോഡൽ ഡ്രിഫ്റ്റ് (എന്തിനാൽ ഏജന്റിന്റെ ഫലപ്രാപ്തി ഇന്പുട്ട് പാറ്റേണുകൾ മാറുമ്പോൾ കുറയുന്നു) കാണാം, പ്രതീക്ഷിക്കാത്ത ചോദ്യങ്ങളും സാഹചര്യങ്ങളും കണ്ടെത്താം. ഇത് യഥാർത്ഥ ലോകത്തിലെ ഏജന്റ് പെരുമാറ്റത്തിന്റെ വെളിപാടാണ്.

ഓൺലൈൻ മൂല്യനിർണയം അഭ്യന്തര ഉവാചാരവും പറയുന്നു, സാന്റ് സൃഷ്ടി ടെസ്റ്റുകളും A/B പരിശോധനകളും ഉൾപ്പെടുത്തി നടക്കാം (പുത്തൻ പതിപ്പ് പഴയ പതിപ്പിനോട് താരതമ്യം ചെയ്യാനായി സമാന്തരമായി പ്രവർത്തിപ്പിക്കുക). വെല്ലുവിളി യഥാർത്ഥ ഇടപെടലുകളിൽ വിശ്വാസയോഗ്യമായ ലേബലുകൾ അല്ലെങ്കിൽ സ്കോറുകൾ കിട്ടുക ബുദ്ധിമുട്ടാണ് – ഉപയോക്തൃ പ്രതികരണം അല്ലെങ്കിൽ ഡൗൺസ്ട്രീം മെട്രിക്കുകൾ (ഉദാ: ഉപയോക്താവ് ഫലം ക്ലിക്ക് ചെയ്തു എന്നോ) ആശ്രയിച്ചിരിക്കാം.

രണ്ട് രീതികൾ സംയോജിപ്പിക്കുക

ഓൺലൈൻ മുതൽ ഓഫ്‌ലൈൻ വരെ മൂല്യനിർണയങ്ങൾ പരസ്പരം വ്യത്യസ്തമല്ല, പകരം പരസ്പരം പൂരകമാണ്. ഓൺലൈൻ നിരീക്ഷണത്തിൽ നിന്നും ലഭിക്കുന്ന洞 (ഉദാ: ഏജന്റ് മോശം പ്രവർത്തിക്കുന്ന ഉപയോക്തൃ ചോദ്യങ്ങളുടെ പുതിയ തരം) ഓഫ്‌ലൈൻ ടെസ്റ്റ് ഡാറ്റാസെറ്റുകൾ മെച്ചപ്പെടുത്താൻ ഉപയോഗിക്കാം. മറുവശത്ത്, ഓഫ്ലൈൻ ടെസ്റ്റുകളിൽ നല്ല പ്രകടനം ചെയ്യുന്ന ഏജന്റുകൾ കൂടുതൽ ആത്മവിശ്വാസത്തോടെ വിന്യസിച്ച് ഓൺലൈൻ നിരീക്ഷിക്കാം.

വാസ്തവത്തിൽ, പല ടീമുകളും ഒരു ലൂപ്പ് സ്വീകരിക്കുന്നു:

ഓഫ്‌ലൈൻ മൂല്യനിർണയം -> വിന്യസനം -> ഓൺലൈൻ നിരീക്ഷണം -> പുതിയ പരാജയ കേസുകൾ ശേഖരിക്കൽ -> ഓഫ്‌ലൈൻ ഡാറ്റാസറ്റിലേക്ക് ചേർക്കലും -> ഏജന്റ് പുനർനിര്‍മ്മാണം -> ആവർത്തനം.

സാധാരണ പ്രശ്നങ്ങൾ

എഐ ഏജന്റുകൾ പ്രൊഡക്ഷനിലേക്ക് വിന്യസിക്കുമ്പോൾ നിങ്ങൾക്ക് പല വെല്ലുവിളികളും നേരിടേണ്ടിവരും. ചില സാധാരണ പ്രശ്നങ്ങളും അവരുടെ പരിഹാര സാധ്യതകളും:

പ്രശ്നം	സാധ്യമായ പരിഹാരം
എഐ ഏജന്റ് തികഞ്ഞും സ്ഥിരതയോടെ പ്രവർത്തിക്കുന്നില്ല	- ഏജന്റിന് നൽകുന്ന പ്രോംപ്റ്റ് മെച്ചപ്പെടുത്തുക; ലക്ഷ്യങ്ങൾ വ്യക്തമാക്കുക. - ടാസ്‌ക്കുകൾ തകർത്ത് സബ്ടാസ്‌ക്കുകളായി വിഭജിച്ച് അനേകം ഏജന്റുകൾ കൈകാര്യം ചെയ്യുന്നത് സഹായമാകുമെന്ന് തിരിച്ചറിയുക.
എഐ ഏജന്റ് തുടർച്ചയായ ലൂപ്പുകളിലേക്ക് പോകുന്നു	- പ്ലോസ്ലിഷ്ടോപ് നിബന്ധനകൾ വ്യക്തമാക്കുക; ഏജന്റ് പ്രവർത്തനം എപ്പോഴു അവസാനിപ്പിക്കണമെന്ന് അറിയണം. - കാര്യനിർവഹണവും ആലോചനയും ആവശ്യമായ സങ്കീർണ്ണ ടാസ്‌ക്കുകൾക്കായി വലുതും പ്രത്യേകമായ മോഡൽ ഉപയോഗിക്കുക.
എഐ ഏജന്റിന്റെ ഉപകരണ കോളുകൾ ശരിയായി പ്രവർത്തിക്കുന്നില്ല	- ഉപകരണത്തിന്റെ ഔട്ട്‌പുട്ട് ഏജന്റ് സിസ്റ്റത്തിനപ്പുറം പരിശോധിച്ച് സാധൂകരിക്കുക. - നിർവ്വചിച്ച പാരാമീറ്ററുകളും പ്രോംപ്റ്റുകളും ടൂളിന്റെ നാമകരണവും പൂർത്തിയാക്കുക.
മൾട്ടി- ഏജന്റ് സമർത്ഥ്യത്തിൽ സ്ഥിരതയില്ല	- ഓരോ എജന്റിനും നൽകുന്ന പ്രോംപ്റ്റുകൾ വ്യക്തവും വ്യത്യസ്തവുമായിരിക്കണമെന്ന് ഉറപ്പാക്കുക. - “റൂട്ടിംഗ്” അല്ലെങ്കിൽ കൺട്രോളർ ഏജന്റ് ഉപയോഗിച്ച് ഏജന്റ് തിരഞ്ഞെടുക്കുന്ന ഹിയറാർക്കിക്കൽ സിസ്റ്റം രൂപപ്പെടുത്തുക.

ഈ പ്രശ്നങ്ങളിൽ ഭൂരിഭാഗം നിരീക്ഷണ സംവിധാനം ഉണ്ടെങ്കിൽ നന്നായി തിരിച്ചറിയാനാകും. മുകളിൽ ചര്‍ച്ച ചെയ്ത ട്രേസുകളും മെട്രിക്കുകളും ഏജന്റ് പ്രവൃത്തി ക്രമത്തിലെ പ്രശ്നങ്ങൾ കണ്ടെത്താൻ സഹായിക്കുകയും ഡീബഗ്ഗിംഗും ഒപ്റ്റിമൈസേഷനും വളരെ ഫലപ്രദമാക്കുകയും ചെയ്യും.

ചെലവ് നിയന്ത്രണം

പ്രൊഡക്ഷനിലേക്ക് AI ഏജൻറുകൾ വിന്യസിക്കുന്നതിന്റെ ചെലവുകൾ നിയന്ത്രിക്കാൻ ചില തന്ത്രങ്ങൾ ഇവിടെ നൽകിയിരിക്കുന്നു:

ചെറിയ മോഡലുകൾ ഉപയോഗിക്കൽ: ചെറിയ ഭാഷാ മോഡലുകൾ (SLMs) ചില ഏജൻസിക് ഉപയോഗകേസുകളിൽ നല്ല പ്രകടനം കാണിക്കാം, കൂടാതെ ചെലവുകൾ ശ്രദ്ധേയമായി കുറയും. മുമ്പ് പറഞ്ഞത് പോലെ, വലിയ മോഡലുകളുമായി പ്രകടനം വിലയിരുത്താനും താരതമ്യം ചെയ്യാനും ഒരു വിലയിരുത്തൽ സംവിധാനം നിർമ്മിക്കുന്നത് നിങ്ങൾക്കുള്ള ഉപയോഗകേസിൽ SLM എത്രത്തോളം നല്ല പ്രകടനം ചെലുത്തുമെന്ന് മനസ്സിലാക്കാനുള്ള ഏറ്റവും മികച്ച മാർഗമാണ്. ഉദ്ദേശ്യ വിവാഹനം അല്ലെങ്കിൽ പാരാമീറ്റർ കണ്ടെടുക്കൽ പോലുള്ള ലളിതമായ ജോലികൾക്കായി SLMകൾ ഉപയോഗിക്കുന്നതിനായി പരിഗണിക്കുക, സങ്കീർണ്ണമായ ചിന്തനത്തിനായി വലിയ മോഡലുകൾ സംരക്ഷിച്ച് വയ്ക്കുക.

റൂട്ടർ മോഡൽ ഉപയോഗിക്കൽ: സമാനമായ ഒരു തന്ത്രമാണ് മോഡലുകളുടെ വൈവിധ്യവും വലുപ്പവും ഉപയോഗിക്കുക. നിങ്ങളുടെ ആവശ്യാനുസരണം നിർമ്മലമായ LLM/SLM അല്ലെങ്കിൽ സർവർലെസ് ഫംഗ്ഷൻ ഉപയോഗിച്ച് പർപ്പർ מורכതയുടെ അടിസ്ഥാനത്തിൽ അപേക്ഷകൾ ഏറ്റവും അനുയോജ്യമായ മോഡലുകളിൽ റൂട്ടുചെയ്യാം. ഇത് ചെലവുകൾ കുറയ്ക്കാനും ശരിയായ ജോലിയിലുളള പ്രകടനവും ഉറപ്പാക്കാനും സഹായിക്കും. ഉദാഹരണത്തിന്, ലളിതമായ ചോദ്യംചോദനങ്ങൾ ചെറിയ, വേഗമേറിയ മോഡലുകളിലേക്ക് റൂട്ടുചെയ്യുക, സങ്കീർണ്ണമായ ചിന്തന ജോലികൾക്കായി മാത്രം വിലവേറിയ വലിയ മോഡലുകൾ ഉപയോഗിക്കുക.

പ്രതികരണങ്ങൾ ക്യാഷ് ചെയ്യൽ: സാധാരണമായ ആവശ്യങ്ങളും ജോലികളും തിരിച്ചറിയുകയും ഏജൻസിക് സംവിധാനം വഴി നിങ്ങൾക്കു മുന്നേ പ്രതികരണങ്ങൾ നൽകുകയും ചെയ്യുന്നത് സമാനമായ അപേക്ഷകളുടെ അളവ് കുറക്കാനുള്ള നല്ല മാർഗമാണ്. കൂടുതലെളിയയ AI മോഡലുകൾ ഉപയോഗിച്ച് നിങ്ങളുടെ ക്യാഷ് ചെയ്ത അപേക്ഷകളോട് ഒരു പുതിയ അപേക്ഷ എത്രത്തോളം സാമ്യം കാണിക്കുന്നു എന്ന് കണ്ടെത്തുന്നതിനുള്ള ഒരു പ്രവാഹം കൂടി നടപ്പിലാക്കാം. ഇത് പെട്ടെന്നുള്ള ചോദ്യങ്ങൾക്കും സാധാരണ പ്രവർത്തന പ്രവാഹങ്ങൾക്കും ചെലവുകൾ വലിയ തോതിൽ കുറയ്ക്കാൻ സഹായിക്കും.

ഇതെങ്ങനെ പ്രായോഗികമായി പ്രവർത്തിക്കുന്നു നോക്കാം

ഈ വിഭാഗത്തിലെ ഉദാഹരണ നോട്ട്‌ബുക്ക് ഉപയോഗിച്ച്, എങ്ങനെ ഏജന്റിന്റെ നിർണയ ശേഷിയും നിരീക്ഷണമുള്ള ഉപകരണങ്ങളും ഉപയോഗിച്ച് നാം അവലോകനം നടത്തുകയും വിലയിരുത്തുകയും ചെയ്യാമെന്ന് കാണാം.

പ്രൊഡക്ഷനിലുള്ള AI ഏജന്റുകളെ കുറിച്ച് കൂടുതൽ ചോദ്യങ്ങളുണ്ടോ?

മറ്റ് പഠിതാക്കളെ കാണാനും, ഓഫീസർ മണിക്കൂറുകളിൽ പങ്കെടുക്കാനും, നിങ്ങളുടെ AI ഏജന്റ് ചോദ്യങ്ങൾക്ക് ഉത്തരങ്ങൾ കിട്ടാനും Microsoft Foundry Discord -ലേക്ക് ചേരുക.

മുൻപുള്ള പാഠം

Metacognition Design Pattern

അടുത്ത പാഠം

Agentic Protocols

അസൂയാ: ഈ രേഖ AI പരിഭാഷാ സേവനം Co-op Translator ഉപയോഗിച്ച് പരിഭാഷപ്പെടുത്തിയതാണ്. ഞങ്ങൾ ശരിയായ വിവർത്തനത്തിന് ശ്രമിച്ചിട്ടുണ്ടെങ്കിലും, автомат отличие автоматические переводы могут содержать ошибки или неточности. അതിനാൽ, യഥാർത്ഥ രേഖയുടെ സാദ്ധ്യത ഭാഷയിലുള്ള പകർപ്പാണ് അതിന്റെ വിശ്വസനീയ ഉറവിടം എന്ന കാര്യം ശ്രദ്ധിക്കുക. പ്രധാന വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യപരിഭാഷ നിർബന്ധമാണ്. ഈ പരിഭാഷ ഉപയോഗിച്ച് ഉണ്ടാകുന്ന തെറ്റിദ്ധാരണകൾക്കും വ്യാഖ്യാനപരമായി വരാനിടയുള്ള പ്രശ്നങ്ങൾക്കും ഞങ്ങൾക്ക് ബാധ്യതയില്ല.

This site is open source. Improve this page.