கணிசமான சோதனை மாதிரிகளிலிருந்து பொருள்மொழிநிலை பயன்பாடுகளுக்கு AI முகவர்கள் நகரும் போது, அவர்களின் நடத்தை புரிந்துகொள்வது, செயல்திறனை கண்காணிப்பது மற்றும் அவர்கள் உற்பத்தி செய்யும் பெறுமதிகளை முறையாக மதிப்பீடு செய்வது முக்கியமாகிறது.
இந்த பாடத்தினை முடித்தவுடன், நீங்கள் அறிந்திருப்பீர்கள்/புரிந்துகொள்ளப்போகிறீர்கள்:
இந்தப் பாடத்தின் நோக்கம் உங்கள் “கருப்பு பெட்டி” முகவர்களை தெளிவான, பராமரிக்கக்கூடிய மற்றும் நம்பகமான அமைப்புகளாக மாற்றுவதற்கான அறிவை வழங்குவதே ஆகும்.
குறிப்பு: பாதுகாப்பான மற்றும் நம்பக் கூடிய AI முகவர்களை despley செய்யுவது முக்கியம். நம்பகமான AI முகவர்களை உருவாக்குதல் பாடத்தினையும் பார்க்கவும்.
Langfuse அல்லது Microsoft Foundry போன்ற கண்காணல் கருவிகள் பொதுவாக முகவர் ஓட்டங்களை டிரேசுகள் மற்றும் ஸ்பான்களாக பிரதிநிதித்துவம் செய்கின்றன.
கண்காணல் இல்லாதபோது, ஒரு AI முகவர் “கருப்பு பெட்டி” போல் உணரப்படலாம் — அதன் உள் நிலை மற்றும் காரணவியலாக்கம் தெளிவாக கிடையாது, இதனால் பிழைகளை கண்டறிவது அல்லது செயல்திறனை மேம்படுத்துவது கடினமாகிறது. கண்காணல் இருப்பின், முகவர்கள் “கண்ணாடி பெட்டிகள்” ஆக மாறிக்கொண்டு, நம்பிக்கையை உருவாக்கவும் அவை எதிர்பார்க்கப்படுவது போல செயல்படுவதை உறுதிசெய்யவும் அவசியமான வெளிப்படைத்தன்மையை வழங்குகின்றன.
AI முகவர்களை உற்பத்தி சூழல்களுக்கு மாற்றும் போது புதிய சவால்கள் மற்றும் தேவைகள் தோன்றுகின்றன. கண்காணல் என்பது இனிமேல் “நல்லதற்காகவே” இருக்கும் ஒரு அம்சமாக இல்லாமல், கட்டாயமான திறனாக மாறுகிறது:
முகவர் நடத்தை கண்காணித்து புரிந்துகொள்ள பல வகையான அளவுருக்கள் மற்றும் சிக்னல்களை பின்பற்ற வேண்டும். குறிப்பாக அளவுருக்கள் முகவரின் நோக்கத்தின் படி மாறியிருக்கலாம், ஆனால் சில பொதுவாக முக்கியமானவை.
கண்காணல் கருவிகள் அடிக்கடி கண்காணிக்கும் சில பொதுவான அளவுருக்கள் இங்கே:
Latency: முகவர் எவ்வளவு விரைவில் பதிலளிக்கிறது? நீண்ட காத்திருப்பு நேரம் பயனர் அனுபவத்தை பாதிக்கின்றது. முகவர் ஓட்டங்களை டிரேஸிங் மூலம் பணிகள் மற்றும் தனித்தடங்களின்மேல் தாமதத்தை அளவிட வேண்டும். உதாரணமாக, அனைத்து மாதிரி அழைப்புகளுக்கும் 20 விநாடிகள் எடுத்துக்கொள்ளும் முகவரைக் குறிப்பாக வேகமான மாடலைப் பயன்படுத்தி அல்லது மாதிரி அழைப்புகளை ஒத்திசைக்க (parallel) இயக்கி விரைவாக்கலாம்.
Costs: ஒரு முகவர் ஓட்டத்திற்கு செலவு எவ்வளவு? AI முகவர்கள் LLM அழைப்புகள் அல்லது வெளிப்புற APIகளில் சார்ந்திருப்பதால் செலவுகள் வேகமாக அதிகரிக்கலாம். உதாரணமாக, ஒரு முகவர் குறைந்த தரத்தில் சிறிது மேம்பாட்டுக்காக LLM ஐ ஐந்து முறை அழைத்தால், நீங்கள் செலவு முழுக்க தணிக்க வேண்டியிருக்கும்; அழைப்புகளின் எண்ணிக்கையை குறைக்கவோ அல்லது குறைந்த செலவு மாடலை பயன்படுத்தவோ முடியும். நேரடி கண்காணிப்பு எதிர்பாராத spike-களை (eg., பிழைகள் காரணமாக அதிகமான API லூப்புகள்) கண்டறிய உதவும்.
Request Errors: முகவர் எத்தனை கோரிக்கைகளை தோல்வி அடைந்துவிட்டது? இதில் API பிழைகள் அல்லது கருவி அழைப்புகள் தோல்வியடைவதைக் கொண்டிருக்கலாம். உற்பத்தியில் இந்த சத்துகளுக்கு முகவரை மேலும் பொறுமையாகச் செய்ய திரும்ப முயற்சிகள் அல்லது fallback-களை அமைக்கலாம். உதாரணம்: LLM வழங்குநர் A தடைப்பட்டால், நீங்கள் காப்பு வழங்குநராக LLM வழங்குநர் B-க்கு மாறலாம்.
User Feedback: நேரடி பயனர் மதிப்பீடுகள் மதிப்புமிக்க洞கவுகளை அளிக்கின்றன. இது தெளிவான மதிப்பீடுகளை (👍thumbs-up/👎down, ⭐1-5 நட்சத்திரங்கள்) அல்லது எழுத்து கருத்துக்களைப் 포함 செய்யலாம். தொடர்ந்து வருகிற 부정적인 பின்னூட்டம் முகவர் எதிர்பார்த்தபடி செயல்படாமல் இருக்கிறது என்ற எச்சரிக்கையாக இருக்க வேண்டும்.
Implicit User Feedback: தெளிவான மதிப்பீடுகள் இல்லாமல் பயனர் நடத்தை மறைமுகமான பின்னூட்டத்தை தருகிறது. இது உடனடி கேள்வி மறுபதிவு, மறு கோரிக்கைகள் அல்லது retry பட்டனை அழுத்துதல் போன்றவற்றைக் கொண்டிருக்கலாம். உதாரணமாக, பயனர்கள் தொடர்ந்து ஒரே கேள்வியை கேட்டால், அது முகவர் எதிர்பார்த்தபடி வேலை செய்யவில்லையென்ற அறிகுறி.
Accuracy: முகவர் எத்தனை தடவை சரியான அல்லது விரும்பத்தகுந்த வெளியீடுகளை உருவாக்குகிறது? துல்லியம் வரையறைகள் மாறுபடலாம் (உதாரணமாக, பிரச்சனை தீர்க்கும் சரியானத்தன்மை, தகவல்திரட்டல் துல்லியம், பயனர் திருப்தி). உங்கள் முகவருக்கான வெற்றியை எப்படி வரையறுக்கலாம் என்பதை முதலில் தீர்மானிக்க வேண்டும். துல்லியத்தைக் தானியங்கி பரிசோதனைகள், மதிப்பீட்டு புள்ளிகள் அல்லது பணிச் சித்திரங்கள் மூலம் தொடர்ந்து கண்காணிக்கலாம். உதாரணமாக, டிரேசுகளை “succeeded” அல்லது “failed” என்று குறிக்கலாம்.
Automated Evaluation Metrics: தானியங்கி மதிப்பீடுகளை அமைக்கலாம். உதாரணமாக, ஒரு LLM-ஐப் பயன்படுத்தி முகவரின் வெளியீடை மதிப்பீடு செய்யலாம் — அது உதவியாக இருக்கிறதா, துல்லியமானதா என்பதைக் கொண்டு மதிப்பீடு செய்தல். பல ஓப்பன்-சோர்ஸ் நூலகங்கள் முகவரின் பல அம்சங்களை மதிப்பீடு செய்வதற்கு உதவுகின்றன. உதாரணம்: RAG முகவர்களுக்கு RAGAS அல்லது ஹானிகரான மொழி அல்லது prompt injection-ஐ கண்டறிய LLM Guard போன்றவை.
உண்மையில், இந்த அளவுருக்கள் கூட்டிணைந்து AI முகவரியின் ஆரோக்கியத்திற்கு சிறந்த பாதுகாப்பளிப்பை வழங்குகின்றன. இந்த அத்தியாயத்தின் உதாரண நோட்புக் இல் எவ்வாறு இவ்விதமான அளவுருக்கள் உண்மையான உதாரணங்களில் தோன்றுகின்றன என்பதை காட்டுவோம், ஆனால் முதலில், ஒரு சாதாரண மதிப்பீட்டு பணிமுறை எப்படித் தோன்றுகிறது என்பதை தெரிந்து கொள்வோம்.
டிரேசிங் தரவை சேகரிக்க, உங்கள் கோடில் கருவூலம் (instrumentation) சேர்க்க வேண்டியிருக்கும். நோக்கம் முகவர் கோடைக் கருவூலம் மூலம் டிரேசுகள் மற்றும் அளவுருக்கள் வெளியிட வழிமுறை உருவாக்குவது, அவற்றை ஒரு கண்காணல் தளத்தில்ப் பிடித்து, செயலாக்கித்து, காட்சி செய்வதற்காக.
OpenTelemetry (OTel): OpenTelemetry LLM கண்காணலுக்கான ஒரு தொழில்துறை தரநிலையாக உருவெடுத்துக் கொண்டுள்ளது. இது டெலிமெட்ரி தரவை உருவாக்க, சேகரிக்க மற்றும் ஏற்றுமதிக்க APIகள், SDKகள் மற்றும் கருவிகளின் தொகுப்பினை வழங்குகிறது.
பல கருவூலம் நூலகங்கள் ஏற்கனவே உள்ள முகவர் ஃப்ரேம்வொர்க்குகளை ஒட்டிச் சுழற்சி செய்து OpenTelemetry ஸ்பான்களை கண்காணல் கருவிக்கு எளிதாக ஏற்றுமதி செய்யவும்உள்ளன. Microsoft Agent Framework இயல்பாக OpenTelemetry உடன் ஒருங்கிணைக்கிறது. கீழே ஒரு MAF முகவருக்கு கருவூலம் இணைப்பதற்கான உதாரணம் கொடுக்கப்பட்டுள்ளது:
from agent_framework.observability import get_tracer, get_meter
tracer = get_tracer()
meter = get_meter()
with tracer.start_as_current_span("agent_run"):
# ஏஜென்ட் இயக்கம் தானாகப் பின்தொடரப்படுகிறது
pass
இந்த அத்தியாயத்தில் உள்ள உதாரண நோட்புக் உங்கள் MAF முகவருக்கு கருவூலம் எப்படி சேர்க்கப்படும் என்பதைக் காட்சிப்படுத்தும்.
Manual Span Creation: கருவூலம் நூலகங்கள் ஒரு நல்ல அடித்தளத்தை வழங்கினாலும், அதிகமான விவரமோ அல்லது தனிப்பயன் தகவலோ தேவைப்படும் சூழ்நிலைகள் அடிக்கடி ஏற்படுகின்றன. தனிப்பட்ட பயன்பாட்டு லாஜிக் சேர்ப்பதற்கு நீங்கள் கையேடு ஸ்பான்களை உருவாக்கலாம். மேலும் முக்கியமாக, அவை தானாக உருவாக்கப்பட்ட அல்லது கையேட்டாக உருவாக்கப்பட்ட ஸ்பான்களை தனிப்பயன் அடையாளங்களினால் (tags அல்லது metadata என்றும் அழைக்கப்படுவதை) செத்துப்பெற முடியும். இதைப் பயன்படுத்தி தொழில்-செப்ட்டான தரவுகள், இடைநிலை கணக்கீடுகள் அல்லது பிழைதிருத்தம் மற்றும் பகுப்பாய்வுக்கு பயனுள்ள எந்த விதமான சூழலும் சேர்க்கலாம், உதாரணமாக user_id, session_id, அல்லது model_version.
Langfuse Python SDK உடன் டிரேசுகள் மற்றும் ஸ்பான்களை கையேட்டாக உருவாக்குவதற்கான உதாரணம்:
from langfuse import get_client
langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()
கண்காணல் நமக்கு அளவுருக்கள் தருகின்றது, ஆனால் மதிப்பீடு என்பது அந்த தரவுகளை (மற்றும் சோதனைகளை நடத்துவதைக்) பகுப்பாய்வு செய்து ஒரு AI முகவர் எவ்வளவு சிறப்பாக செயல்படுகிறது மற்றும் அதை எவ்வாறு மேம்படுத்தலாம் என்பதை தீர்மானிக்கும் செயல்முறை. வேறு வார்த்தையில், டிரேசுகள் மற்றும் அளவுருக்கள் இருக்கும்போது, அவைகளை எப்படி பயன்படுத்தி முகவரியை மதிப்பீடு செய்து முடிவெடுக்க வேண்டும்?
தொடர்ச்சியான மதிப்பீடு முக்கியம், ஏனெனில் AI முகவர்கள் பெரும்பாலும் non-deterministic மற்றும் மேம்பாடுகள் அல்லது மாடல் பாகம் மாறுதல் மூலம் மாற்றப்படக்கூடியவை — மதிப்பீடு இல்லாமல், உங்கள் “நுண்ணறிவு முகவர்” உண்மையில் நல்லதாக செயல்படுகிறதா அல்லது பின்தங்கியிருக்கிறதா என்பதை நீங்கள் அறிய முடியாது.
AI முகவர்களுக்கு இரண்டு வகை மதிப்பீடுகள் உள்ளன: ஆன்லைன் மதிப்பீடு மற்றும் ஆஃப்லைன் மதிப்பீடு. இரண்டும் மதிப்புமிகுந்தவை மற்றும் ஒன்றுக்கொன்று पूூர்த்திசெய்கின்றன. பொதுவாக நாம் ஆஃப்லைன் மதிப்பீட்டிலிருந்து தொடங்குவோம், ஏனெனில் இது எந்த முகவரையும் despley செய்யுமுன் குறைந்தபட்ச தேவையான படி ஆகும்.

இது ஒரு கட்டுப்படுத்தப்பட்ட சூழலில், பொதுவாக சோதனை தரவுத்தொகுப்புகளைப் பயன்படுத்தி, நேரடி பயனர் கேள்விகள் இல்லாமல் முகவரைக் கணக்கிடுவதை ಒಳக்கியது. நீங்கள் எதிர்பார்க்கப்படும் வெளியீடு அல்லது சரியான நடத்தை என்ன என்பது தெரிந்துகொள்ள கூடிய திரட்டப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி உங்கள் முகவரியை இயக்குகிறீர்கள்.
உதாரணமாக, நீங்கள் ஒரு கணித வார்த்தை-பிரச்சனை முகவரியை உருவாக்கினால், 100 பிரச்சனைகள் கொண்ட ஒரு சோதனை தரவுத்தொகுப்பு இருப்பவையாக இருக்கலாம், அவற்றுக்கு தெரிந்த பதில்கள் உள்ளன. ஆஃப்லைன் மதிப்பீடு பொதுவாக மேம்பாட்டின் போது (CI/CD குழாய்களில் ஒரு பகுதியாக) செய்யப்பட்டு மேம்பாடுகளைச் சோதிக்க அல்லது பின்தங்கல்களை தடுக்கும். நன்மை என்னவெனில் இது மறுபடியும் செய்யக்கூடியது மற்றும் தரநிலை உண்மையானது என்பதால் துல்லியத்தின் தெளிவான அளவுருக்களை பெற முடியும். நீங்கள் பயனர் கேள்விகளை ப(simulate) செய்யவும் முகவரியின் பதில்களை理சார்ந்த பதில்களோடு அல்லது மேலே விவரிக்கப்பட்ட தானியங்கி அளவுருக்களோடு ஒப்பிடவும் முடியும்.
ஆஃப்லைன் மதிப்பீட்டின் முக்கிய சவால் உங்கள் சோதனை தரவுத்தொகுப்பு விரிவானதாகவும் தொடர்புடையதும் இருந்து இருக்க வேண்டும் என்பதாகும் — ஒரு நிலையான சோதனை தொகுப்பில் முகவர் நன்றாக செயல்பட்டாலும், உற்பத்தியில் வெறுத்தவாறு வேறுபட்ட கேள்விகள் எதிர்கொள்ளக் கூடும். எனவே, நீங்கள் சோதனை தொகுப்புகளை புதிய எட்ஜ் கேஸ்களுடன் மற்றும் உண்மைக் காட்சிகளை பிரதிபலிக்க உதவக்கூடிய எடுத்துக்காட்டுகளுடன் புதுப்பித்து கொள்ள வேண்டும். சிறிய “ஸ்மோக் டெஸ்ட்” காட்சிகளும் பெரிய மதிப்பீட்டு தொகுப்புகளும் ஒரு கலவையாக பயன்படுகின்றன: விரைவு சரிபார்ப்புகளுக்காக சிறிய தொகுப்புகள் மற்றும் பரவலான செயல்திறன் அளவுருக்களுக்கு பெரியவை பயனுள்ளதாக இருக்கும்.

இது ஒரு நேரடி, உண்மையான சூழலில், அதாவது உற்பத்தியில் நடைமுறைப் பயன்பாட்டின்போது முகவரியை மதிப்பீடு செய்வதை குறிக்கிறது. ஆன்லைன் மதிப்பீடு உண்மையான பயனர் தொடர்புகளில் முகவரியின் செயல்திறனை கண்காணித்து தொடர்ச்சியாக முடிவுகளை பகுப்பாய்வு செய்வதைப் பொதுவாக உள்ளடக்கியது.
உதாரணமாக, நீங்கள் வெற்றி வீதங்கள், பயனர் திருப்தி மதிப்பெண்கள் அல்லது மற்ற மடல்முறைகள் போன்றவற்றை நேரடி போக்கில் கண்காணிக்கலாம். ஆன்லைன் மதிப்பீட்டின் நன்மை என்னவெனில் அது லேபில் சூழலில் நீங்கள் எதிர்பார்க்காத விஷயங்களைப் பற்றியும் பிடிபார்க்கிறது — மாதிரி செயல்திறன் காலத்துக்குப் போது மாறிவிடும் (input மாதிரிகள் மாறுவதால் முகவரின் விளைவுத்திறன் குறையலாம்) மற்றும் சோதனை தரவுகளில் இல்லாத எதிர்பாராத கேள்விகள் அல்லது நிலைகளைக் கண்டறிய முடியும். இது முகவர் வெளிப்படையாக இயங்கும் முறையின் உண்மையான படம் காட்டுகிறது.
ஆன்லைன் மதிப்பீடு பொதுவாக மறைமுக மற்றும் தெளிவான பயனர் பின்னூட்டங்களை சேகரிப்பதையும், நிழல்தோதும் சோதனைகள் அல்லது A/B சோதனைகள் நடத்துவதையும் (புதிய பதிப்பு பழையதுடன் ஒப்பிடப்படுவதற்காக இணைந்து இயக்கப்படும்) உள்ளடக்கலாம். சவால் என்னவெனில், நேரடி தொடர்புகளுக்கு நம்பகமான லேபிள்கள் அல்லது மதிப்பெண்களைப் பெறுவது கடினமாக இருக்கும் — நீங்கள் பயனர் பின்னூட்டம் அல்லது பின்னடைவு அளவுருக்கள் (உதாரணமாக பயனர் முடிவை கிளிக் செய்தாரா என்பது போன்ற) மீது சார்ந்திருக்கலாம்.
ஆன்லைன் மற்றும் ஆஃப்லைன் மதிப்பீடுகள் பகிரங்கமில்லாமல்; அவை ஒருவருக்கொருவர் மிகவும் पूூர்த்திசெய்கின்றன. ஆன்லைனில் கண்காணிப்பு மூலம் கிடைக்கும்洞கங்கள் (eg., முகவர் தவறாக செயல்படும் புதிய வகை பயனர் கேள்விகள்) ஆஃப்லைன் சோதனை தரவுத்தொகுப்புகளை செந்தமிழ் செறிவிக்க பயன்படுத்தப்படலாம். மறுபுறம், ஆஃப்லைனில் நன்றாக செயல்படும் முகவர்கள் பின்னர் ஆன்லைனில் நம்பிக்கையுடன் நியமிக்கப்படலாம் மற்றும் கண்காணிக்கப்படலாம்.
உண்மையில், பல அணிகள் ஒரு சுழற்சியை ஏற்றுக்கொள்கின்றன:
ஆஃப்லைனில் மதிப்பீடு -> நியமிக்கவும் -> ஆன்லைனில் கண்காணிக்கவும் -> புதிய தோல்வி விவரங்களைச் சேகரிக்கவும் -> ஆஃப்லைன் தரவுத்தொகுப்பில் சேர்க்கவும் -> முகவரை மேம்படுத்தவும் -> மீண்டும் தொடர்.
உங்கள் AI முகவர்களை உற்பத்திக்கு கொண்டு செல்வதுடன், பல்வேறு சவால்களை எதிர்கொள்ளலாம். இங்கே சில பொதுவான பிரச்சினைகள் மற்றும் அவற்றுக்கான சாத்தியமான தீர்வுகள்:
| பிரச்சினை | சாத்தியமான தீர்வு |
|---|---|
| முகவர் பணிகளை ஒரே மாதிரியான முறையில் தொடர்ந்து செய்யாமல் இருக்கிறது | - AI முகவக்கு வழங்கப்படும் ப்ராம்ப்ட்டை சீரமைக்கவும்; இலக்குகளை தெளிவாக குறிப்பிடவும். - பணிகளை உடைக்க subtasks ஆகி பல முகவர்கள் மூலம் கையாளப்படுவது எங்கே உதவும் என்பதை கண்டறியவும். |
| முகவர் தொடர்ந்து லூப்புகளில் சிக்குகிறது | - முகவர் எப்போது செயல்முறையை நிறுத்த வேண்டும் என்பதற்கு தெளிவான முடிப்பு விதிமுறைகள் அமைக்கவும். - காரண்வளம் மற்றும் திட்டமிடல் தேவைப்படும் சிக்கலான பணிகளுக்கு, காரணவியல் பணிகளுக்கு சிறப்பு பெற்ற பெரிய மாடலைப் பயன்படுத்தவும். |
| முகவர் கருவி அழைப்புகள் நன்கு செயல்படவில்லை | - கருவியின் வெளியீட்டை முகவர் அமைப்பின் வெளியே சோதித்து சரிபார்க்கவும். - குறிப்பிட்ட பரிமாணங்கள், ப்ராம்ப்ட்கள் மற்றும் கருவிகளின் பெயரிடலை சீரமைக்கவும். |
| பல-முகவர் அமைப்பு ஒரே மாதிரியாக செயல்படவில்லை | - ஒவ்வொரு முகவரும் பெறும் ப்ராம்ப்ட்களை ஒவ்வொன்றாக பிரித்து தனிப்பட்டவையாகவும் வேறுபாட்டோடு இருப்பதற்கு சீரமைக்கவும். - எந்த முகவர் சரியானது என்று தீர்மானிக்க “routing” அல்லது கட்டுப்பாட்டு முகவரைப் பயன்படுத்தி ஒரு படிநிலைவியல் அமைப்பை கட்டமைக்கவும். |
இந்தப் பிரச்சினைகளில் பலவற்றை கண்காணல் செயல்பாடு இருந்தால் மிகவும் திறம்பட அடையாளம் காண முடியும். நாம் முன்பே விவாதித்த டிரேசுகள் மற்றும் அளவுருக்கள் எந்த இடத்தில் பிரச்சனை உருவாகிறது என்பதை துல்லியமாகக் காண்பிக்க உதவுகின்றன, இதனால் பிழைதிருத்தத்தும் செயல்திறன் விருத்தியும் மிகவும் விளக்கமாக அமைகிறது.
AI ஏஜெண்ட்களை தயாரிப்பில் அமுல்படுத்தும் செலவுகளை நிர்வகிப்பதற்கான சில அணுகுமுறைகள் இங்கே:
Using Smaller Models: சிறிய மொழி மாதிரிகள் (Small Language Models, SLMs) சில ஏஜென்ட்-அடிப்படையிலான பயன்பாடுகளில் நல்ல செயல்திறனை வழங்கக்கூடியவை மற்றும் செலவுகளை குறிப்பிடத்தக்க அளவு குறைக்கலாம். முன்னதாக குறிப்பிடப்பட்டபோல், காரிய திறனை பெரிய மாதிரிகளுடன் ஒப்பிட்டுப் பார்க்கவும் தீர்மானிக்கவும் ஒரு மதிப்பீட்டு அமைப்பை உருவாக்குவது, ஒரு SLM உங்கள் பயன்பாட்டில் எவ்வளவு நன்றாக செயல்படுமென்பதை புரிந்து கொள்ள சிறந்த வழி. நோக்கம் வகைப்படுத்தல் (intent classification) அல்லது பராமீட்டர் அகற்றுதல் (parameter extraction) போன்ற எளிய பணிகளுக்கு SLMs ஐ பயன்படுத்த பரிசீலிக்கவும், சிக்கலான நியாயமிடலுக்காக பெரிய மாதிரிகளை ஒதுக்கி வைக்கவும்.
Using a Router Model: இதே போன்ற ஒரு மணையாளம் என்பது பலவகை மாதிரிகள் மற்றும் அளவுகளைக் பயன்படுத்துவதாகும். நீங்கள் கடினத்தன்மையின் அடிப்படையில் கோரிக்கைகளை சிறந்த பொருத்தமான மாதிரிகளுக்கு வழிமாற்ற LLM/SLM அல்லது serverless function ஐப் பயன்படுத்தலாம். இது சரியான பணிகளில் செயல்திறனை உறுதி செய்வதோடு செலவுகளையும் குறைக்க உதவும். உதாரணமாக, எளிய வினவல்களை சிறிய, வேகமான மாதிரிகளுக்கு வழிமாற்றவும், மற்றும் சிக்கலான நியாயமிடல் பணிகளுக்கு மட்டுமே செலவான பெரிய மாதிரிகளைப் பயன்படுத்தவும்.
Caching Responses: பொதுவாக வரும் கோரிக்கைகள் மற்றும் பணிகளை அடையாளம் காண்பதையும், அவை உங்கள் ஏஜென்ட் அமைப்புக்கு செல்லும் முன்னரே பதில்களை அளிப்பதையும் செய்வது, ஒரே மாதிரியான கோரிக்கை அளவை குறைப்பதில் சிறந்த வழியாகும். நீங்கள் மேலொன்றாக, அடிப்படை AI மாதிரிகளைப் பயன்படுத்தி ஒரு ஓட்டத்தை உருவாக்கி, ஒரு கோரிக்கை உங்கள் கேஷ் செய்த கோரிக்கைகளுடன் எவ்வளவு ஒத்துள்ளது என்பதை கண்டறியலாம். அடிக்கடி கேட்கப்படும் கேள்விகள் அல்லது பொதுவான வேலைப்பாடுகளுக்கு இந்தத் திட்டம் செலவுகளை குறிப்பிடத்தக்கভাবে குறைக்கக்கூடும்.
In the example notebook of this section, we’ll see examples of how we can use observability tools to monitor and evaluate our agent.
பிற கற்றலாளர்களை சந்திக்க, ஆபீஸ் நேரங்களில் கலந்து கொள்ள மற்றும் உங்கள் AI ஏஜெண்ட் தொடர்பான கேள்விகளுக்கு பதில்கள் பெற Microsoft Foundry Discord-இல் சேரவும்.
மறுப்புரை: இந்த ஆவணம் AI மொழிபெயர்ப்பு சேவையாயான Co‑op Translator (https://github.com/Azure/co-op-translator) மூலம் மொழிபெயர்க்கப்பட்டது. நாங்கள் துல்லியத்திற்காக முயற்சித்தாலும், தானியங்கி மொழிபெயர்ப்புகளில் தவறுகள் அல்லது துல்லியமற்றவைகள் இருக்கலாம் என்பதை நினைவில் கொள்ளவும். அதன் சொந்த மொழியில் உள்ள அசல் ஆவணம் அதிகாரப்பூர்வ மூலமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்காக தொழில்முறை மனித மொழிபெயர்ப்பை பரிந்துரைக்கிறோம். இந்த மொழிபெயர்ப்பின் பயன்பாட்டினால் ஏற்படும் எந்தவொரு தவறான புரிதல்களுக்கும் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பேற்க மாட்டோம்.