ai-agents-for-beginners

உற்பத்தியில் AI முகவர்கள்: கண்காணல் திறன் மற்றும் மதிப்பீடு

கணிசமான சோதனை மாதிரிகளிலிருந்து பொருள்மொழிநிலை பயன்பாடுகளுக்கு AI முகவர்கள் நகரும் போது, அவர்களின் நடத்தை புரிந்துகொள்வது, செயல்திறனை கண்காணிப்பது மற்றும் அவர்கள் உற்பத்தி செய்யும் பெறுமதிகளை முறையாக மதிப்பீடு செய்வது முக்கியமாகிறது.

கற்றல் இலக்குகள்

இந்த பாடத்தினை முடித்தவுடன், நீங்கள் அறிந்திருப்பீர்கள்/புரிந்துகொள்ளப்போகிறீர்கள்:

முகவர் கண்காணல் திறன் மற்றும் மதிப்பீடு பற்றிய மூலக்கான்செப்டுகள்
முகவர்களின் செயல்திறன், செலவுகள் மற்றும் விளைவுத்திறனை மேம்படுத்தும் தொழில்நுட்பங்கள்
உங்கள் AI முகவர்களை எந்த விடயங்களில் மற்றும் எப்படி முறையாக மதிப்பீடு செய்ய வேண்டும்
உற்பத்திக்கு AI முகவர்களை despley (பரிமாறும்) செய்யும் போது செலவுகளை எப்படி கட்டுப்படுத்துவது
Microsoft Agent Framework கொண்டு கட்டிய முகவர்களுக்கு கருவூலம் (instrumentation) செய்வது எப்படி

இந்தப் பாடத்தின் நோக்கம் உங்கள் “கருப்பு பெட்டி” முகவர்களை தெளிவான, பராமரிக்கக்கூடிய மற்றும் நம்பகமான அமைப்புகளாக மாற்றுவதற்கான அறிவை வழங்குவதே ஆகும்.

குறிப்பு: பாதுகாப்பான மற்றும் நம்பக் கூடிய AI முகவர்களை despley செய்யுவது முக்கியம். நம்பகமான AI முகவர்களை உருவாக்குதல் பாடத்தினையும் பார்க்கவும்.

டிரேஸ் மற்றும் ஸ்பான்கள்

Langfuse அல்லது Microsoft Foundry போன்ற கண்காணல் கருவிகள் பொதுவாக முகவர் ஓட்டங்களை டிரேசுகள் மற்றும் ஸ்பான்களாக பிரதிநிதித்துவம் செய்கின்றன.

Trace என்பது ஒரு முழுமையான முகவர் பணியை தொடக்கம் முதல் முடிவுவரை பிரதிநிதித்துவம் செய்கிறது (பயனர் கேள்வியை மோசுங்கொள்வதை போன்றது).
Spans என்பது டிரேசின் உள்ளொரு படிகளாகும் (மாதிரி அழைப்பு அல்லது தரவை பெறுவது போன்றவை).

Langfuse இல் டிரேஸ் மரம்

கண்காணல் இல்லாதபோது, ஒரு AI முகவர் “கருப்பு பெட்டி” போல் உணரப்படலாம் — அதன் உள் நிலை மற்றும் காரணவியலாக்கம் தெளிவாக கிடையாது, இதனால் பிழைகளை கண்டறிவது அல்லது செயல்திறனை மேம்படுத்துவது கடினமாகிறது. கண்காணல் இருப்பின், முகவர்கள் “கண்ணாடி பெட்டிகள்” ஆக மாறிக்கொண்டு, நம்பிக்கையை உருவாக்கவும் அவை எதிர்பார்க்கப்படுவது போல செயல்படுவதை உறுதிசெய்யவும் அவசியமான வெளிப்படைத்தன்மையை வழங்குகின்றன.

உற்பத்தி சூழல்களில் கண்காணல் திறன் ஏன் முக்கியம்

AI முகவர்களை உற்பத்தி சூழல்களுக்கு மாற்றும் போது புதிய சவால்கள் மற்றும் தேவைகள் தோன்றுகின்றன. கண்காணல் என்பது இனிமேல் “நல்லதற்காகவே” இருக்கும் ஒரு அம்சமாக இல்லாமல், கட்டாயமான திறனாக மாறுகிறது:

பிழைதிருத்தம் மற்றும் மூல-காரண பகுப்பாய்வு: ஒரு முகவர் தோல்வியடைந்தால் அல்லது எதிர்பாராத வெளியீடு உருவாக்கினால், கண்காணல் கருவிகள் பிழையின் மூலத்தை கண்டறிய தேவையான டிரேசுகளை வழங்குகின்றன. இது பல LLM அழைப்புகள், கருவி தொடர்புகள் மற்றும் நிபந்தனைத் தீர்மானங்கள் உள்ள சிக்கலான முகவர்களுக்காக மிகவும் முக்கியம்.
தாமதமும் செலவு மேலாண்மையும்: AI முகவர்கள் பெரும்பாலும் LLMகள் மற்றும் பிற வெளிப்புற APIகளில் சார்ந்திருக்கும் மற்றும் அவை டோக்கன் அல்லது அழைப்புக்கு பொறுப்பாகக் கட்டணம் வசூலிக்கப்படுகின்றன. கண்காணல் இந்த அழைப்புகளை துல்லியமாகப் பதிவுசெய்ய அனுமதிக்கிறது, மெதுவான அல்லது செலவு அதிகமான செயல்பாடுகளை கண்டறிந்து அவற்றை மேம்படுத்த உதவுகிறது. இது உங்களை ப்ராம்ப்ட்களை சிறப்பாக வடிவமைக்க, வேகமான மாடலை தேர்வு செய்ய அல்லது செயல்விளக்கத்தை மறுசீரமைக்க செலவு கட்டுப்படுத்த உதவுகிறது.
நம்பிக்கை, பாதுகாப்பு மற்றும் சார்பு விதிமுறைகள் (Compliance): பல பயன்பாடுகளில் முகவர்கள் பாதுகாப்பாகவும் ஒழுங்குமுறை ரீதியாகவும் நடத்தப்படுவது முக்கியம். கண்காணல் முகவர் நடவடிக்கைகளின் மற்றும் முடிவுகளின் ஒரு ரெக்கார்ட்டை வழங்குகிறது. இதன் மூலம் prompt injection, ஹானிகரமான உள்ளடக்கம் உருவாகுதல், அல்லது தனிப்பட்ட தகவல்களின் (PII) தவறான கையாளல் போன்ற பிரச்சினைகளை கண்டறிந்து தடுக்கும் நடவடிக்கைகள் எடுக்க முடியும். உதாரணமாக, ஒரு முகவர் ஏன் ஒரு குறிப்பிட்ட பதிலை வழங்கியது அல்லது ஒரு குறிப்பிட்ட கருவியைப் பயன்படுத்தியது என்பதைப் புரிந்து கொள்ள டிரேசுகளை நீங்கள் ஆய்வு செய்யலாம்.
தொடர்ச்சியான மேம்பாடு சுழற்சிகள்: கண்காணல் தரவு iterative டெவலப்மெண்ட் செயல்முறையின் அடிப்படையாகும். முகவர்கள் வெளிப்படையான சூழலில் எப்படி செயல்படுகிறார்கள் என்பதை கண்காணிப்பதன் மூலம், அணிகள் மேம்படவேண்டிய பகுதிகளை அடையாளம் காணலாம், மாடல்களை நுணுக்கமாக்குவதற்கான தரவை சேகரிக்கலாம், மற்றும் மாற்றங்களின் தாக்கத்தை சரிபார்க்கலாம். இது உற்பத்தி திருப்பங்களிலிருந்து ஆன்லைன் மதிப்பீட்டுத் தகவல்களை ஆஃப்லைனில் உள்ள பரிசோதனைகள் மற்றும் மெருகூட்டலுக்கு பயன்படுத்தும் ஒரு கருத்திச் சுழற்சியை உருவாக்குகிறது, மற்றும் முடிவாக முகவர் செயல்திறன் மெல்லமெல்ல மேம்படுகிறது.

கண்காணிக்க வேண்டிய முக்கிய அளவுருக்கள்

முகவர் நடத்தை கண்காணித்து புரிந்துகொள்ள பல வகையான அளவுருக்கள் மற்றும் சிக்னல்களை பின்பற்ற வேண்டும். குறிப்பாக அளவுருக்கள் முகவரின் நோக்கத்தின் படி மாறியிருக்கலாம், ஆனால் சில பொதுவாக முக்கியமானவை.

கண்காணல் கருவிகள் அடிக்கடி கண்காணிக்கும் சில பொதுவான அளவுருக்கள் இங்கே:

Latency: முகவர் எவ்வளவு விரைவில் பதிலளிக்கிறது? நீண்ட காத்திருப்பு நேரம் பயனர் அனுபவத்தை பாதிக்கின்றது. முகவர் ஓட்டங்களை டிரேஸிங் மூலம் பணிகள் மற்றும் தனித்தடங்களின்மேல் தாமதத்தை அளவிட வேண்டும். உதாரணமாக, அனைத்து மாதிரி அழைப்புகளுக்கும் 20 விநாடிகள் எடுத்துக்கொள்ளும் முகவரைக் குறிப்பாக வேகமான மாடலைப் பயன்படுத்தி அல்லது மாதிரி அழைப்புகளை ஒத்திசைக்க (parallel) இயக்கி விரைவாக்கலாம்.

Costs: ஒரு முகவர் ஓட்டத்திற்கு செலவு எவ்வளவு? AI முகவர்கள் LLM அழைப்புகள் அல்லது வெளிப்புற APIகளில் சார்ந்திருப்பதால் செலவுகள் வேகமாக அதிகரிக்கலாம். உதாரணமாக, ஒரு முகவர் குறைந்த தரத்தில் சிறிது மேம்பாட்டுக்காக LLM ஐ ஐந்து முறை அழைத்தால், நீங்கள் செலவு முழுக்க தணிக்க வேண்டியிருக்கும்; அழைப்புகளின் எண்ணிக்கையை குறைக்கவோ அல்லது குறைந்த செலவு மாடலை பயன்படுத்தவோ முடியும். நேரடி கண்காணிப்பு எதிர்பாராத spike-களை (eg., பிழைகள் காரணமாக அதிகமான API லூப்புகள்) கண்டறிய உதவும்.

Request Errors: முகவர் எத்தனை கோரிக்கைகளை தோல்வி அடைந்துவிட்டது? இதில் API பிழைகள் அல்லது கருவி அழைப்புகள் தோல்வியடைவதைக் கொண்டிருக்கலாம். உற்பத்தியில் இந்த சத்துகளுக்கு முகவரை மேலும் பொறுமையாகச் செய்ய திரும்ப முயற்சிகள் அல்லது fallback-களை அமைக்கலாம். உதாரணம்: LLM வழங்குநர் A தடைப்பட்டால், நீங்கள் காப்பு வழங்குநராக LLM வழங்குநர் B-க்கு மாறலாம்.

User Feedback: நேரடி பயனர் மதிப்பீடுகள் மதிப்புமிக்க洞கவுகளை அளிக்கின்றன. இது தெளிவான மதிப்பீடுகளை (👍thumbs-up/👎down, ⭐1-5 நட்சத்திரங்கள்) அல்லது எழுத்து கருத்துக்களைப் 포함 செய்யலாம். தொடர்ந்து வருகிற 부정적인 பின்னூட்டம் முகவர் எதிர்பார்த்தபடி செயல்படாமல் இருக்கிறது என்ற எச்சரிக்கையாக இருக்க வேண்டும்.

Implicit User Feedback: தெளிவான மதிப்பீடுகள் இல்லாமல் பயனர் நடத்தை மறைமுகமான பின்னூட்டத்தை தருகிறது. இது உடனடி கேள்வி மறுபதிவு, மறு கோரிக்கைகள் அல்லது retry பட்டனை அழுத்துதல் போன்றவற்றைக் கொண்டிருக்கலாம். உதாரணமாக, பயனர்கள் தொடர்ந்து ஒரே கேள்வியை கேட்டால், அது முகவர் எதிர்பார்த்தபடி வேலை செய்யவில்லையென்ற அறிகுறி.

Accuracy: முகவர் எத்தனை தடவை சரியான அல்லது விரும்பத்தகுந்த வெளியீடுகளை உருவாக்குகிறது? துல்லியம் வரையறைகள் மாறுபடலாம் (உதாரணமாக, பிரச்சனை தீர்க்கும் சரியானத்தன்மை, தகவல்திரட்டல் துல்லியம், பயனர் திருப்தி). உங்கள் முகவருக்கான வெற்றியை எப்படி வரையறுக்கலாம் என்பதை முதலில் தீர்மானிக்க வேண்டும். துல்லியத்தைக் தானியங்கி பரிசோதனைகள், மதிப்பீட்டு புள்ளிகள் அல்லது பணிச் சித்திரங்கள் மூலம் தொடர்ந்து கண்காணிக்கலாம். உதாரணமாக, டிரேசுகளை “succeeded” அல்லது “failed” என்று குறிக்கலாம்.

Automated Evaluation Metrics: தானியங்கி மதிப்பீடுகளை அமைக்கலாம். உதாரணமாக, ஒரு LLM-ஐப் பயன்படுத்தி முகவரின் வெளியீடை மதிப்பீடு செய்யலாம் — அது உதவியாக இருக்கிறதா, துல்லியமானதா என்பதைக் கொண்டு மதிப்பீடு செய்தல். பல ஓப்பன்-சோர்ஸ் நூலகங்கள் முகவரின் பல அம்சங்களை மதிப்பீடு செய்வதற்கு உதவுகின்றன. உதாரணம்: RAG முகவர்களுக்கு RAGAS அல்லது ஹானிகரான மொழி அல்லது prompt injection-ஐ கண்டறிய LLM Guard போன்றவை.

உண்மையில், இந்த அளவுருக்கள் கூட்டிணைந்து AI முகவரியின் ஆரோக்கியத்திற்கு சிறந்த பாதுகாப்பளிப்பை வழங்குகின்றன. இந்த அத்தியாயத்தின் உதாரண நோட்புக் இல் எவ்வாறு இவ்விதமான அளவுருக்கள் உண்மையான உதாரணங்களில் தோன்றுகின்றன என்பதை காட்டுவோம், ஆனால் முதலில், ஒரு சாதாரண மதிப்பீட்டு பணிமுறை எப்படித் தோன்றுகிறது என்பதை தெரிந்து கொள்வோம்.

உங்கள் முகவருக்கு கருவூலம் இணைத்தல்

டிரேசிங் தரவை சேகரிக்க, உங்கள் கோடில் கருவூலம் (instrumentation) சேர்க்க வேண்டியிருக்கும். நோக்கம் முகவர் கோடைக் கருவூலம் மூலம் டிரேசுகள் மற்றும் அளவுருக்கள் வெளியிட வழிமுறை உருவாக்குவது, அவற்றை ஒரு கண்காணல் தளத்தில்ப் பிடித்து, செயலாக்கித்து, காட்சி செய்வதற்காக.

OpenTelemetry (OTel): OpenTelemetry LLM கண்காணலுக்கான ஒரு தொழில்துறை தரநிலையாக உருவெடுத்துக் கொண்டுள்ளது. இது டெலிமெட்ரி தரவை உருவாக்க, சேகரிக்க மற்றும் ஏற்றுமதிக்க APIகள், SDKகள் மற்றும் கருவிகளின் தொகுப்பினை வழங்குகிறது.

பல கருவூலம் நூலகங்கள் ஏற்கனவே உள்ள முகவர் ஃப்ரேம்வொர்க்குகளை ஒட்டிச் சுழற்சி செய்து OpenTelemetry ஸ்பான்களை கண்காணல் கருவிக்கு எளிதாக ஏற்றுமதி செய்யவும்உள்ளன. Microsoft Agent Framework இயல்பாக OpenTelemetry உடன் ஒருங்கிணைக்கிறது. கீழே ஒரு MAF முகவருக்கு கருவூலம் இணைப்பதற்கான உதாரணம் கொடுக்கப்பட்டுள்ளது:

from agent_framework.observability import get_tracer, get_meter

tracer = get_tracer()
meter = get_meter()

with tracer.start_as_current_span("agent_run"):
    # ஏஜென்ட் இயக்கம் தானாகப் பின்தொடரப்படுகிறது
    pass

இந்த அத்தியாயத்தில் உள்ள உதாரண நோட்புக் உங்கள் MAF முகவருக்கு கருவூலம் எப்படி சேர்க்கப்படும் என்பதைக் காட்சிப்படுத்தும்.

Manual Span Creation: கருவூலம் நூலகங்கள் ஒரு நல்ல அடித்தளத்தை வழங்கினாலும், அதிகமான விவரமோ அல்லது தனிப்பயன் தகவலோ தேவைப்படும் சூழ்நிலைகள் அடிக்கடி ஏற்படுகின்றன. தனிப்பட்ட பயன்பாட்டு லாஜிக் சேர்ப்பதற்கு நீங்கள் கையேடு ஸ்பான்களை உருவாக்கலாம். மேலும் முக்கியமாக, அவை தானாக உருவாக்கப்பட்ட அல்லது கையேட்டாக உருவாக்கப்பட்ட ஸ்பான்களை தனிப்பயன் அடையாளங்களினால் (tags அல்லது metadata என்றும் அழைக்கப்படுவதை) செத்துப்பெற முடியும். இதைப் பயன்படுத்தி தொழில்-செப்ட்டான தரவுகள், இடைநிலை கணக்கீடுகள் அல்லது பிழைதிருத்தம் மற்றும் பகுப்பாய்வுக்கு பயனுள்ள எந்த விதமான சூழலும் சேர்க்கலாம், உதாரணமாக user_id, session_id, அல்லது model_version.

Langfuse Python SDK உடன் டிரேசுகள் மற்றும் ஸ்பான்களை கையேட்டாக உருவாக்குவதற்கான உதாரணம்:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

முகவர் மதிப்பீடு

கண்காணல் நமக்கு அளவுருக்கள் தருகின்றது, ஆனால் மதிப்பீடு என்பது அந்த தரவுகளை (மற்றும் சோதனைகளை நடத்துவதைக்) பகுப்பாய்வு செய்து ஒரு AI முகவர் எவ்வளவு சிறப்பாக செயல்படுகிறது மற்றும் அதை எவ்வாறு மேம்படுத்தலாம் என்பதை தீர்மானிக்கும் செயல்முறை. வேறு வார்த்தையில், டிரேசுகள் மற்றும் அளவுருக்கள் இருக்கும்போது, அவைகளை எப்படி பயன்படுத்தி முகவரியை மதிப்பீடு செய்து முடிவெடுக்க வேண்டும்?

தொடர்ச்சியான மதிப்பீடு முக்கியம், ஏனெனில் AI முகவர்கள் பெரும்பாலும் non-deterministic மற்றும் மேம்பாடுகள் அல்லது மாடல் பாகம் மாறுதல் மூலம் மாற்றப்படக்கூடியவை — மதிப்பீடு இல்லாமல், உங்கள் “நுண்ணறிவு முகவர்” உண்மையில் நல்லதாக செயல்படுகிறதா அல்லது பின்தங்கியிருக்கிறதா என்பதை நீங்கள் அறிய முடியாது.

AI முகவர்களுக்கு இரண்டு வகை மதிப்பீடுகள் உள்ளன: ஆன்லைன் மதிப்பீடு மற்றும் ஆஃப்லைன் மதிப்பீடு. இரண்டும் மதிப்புமிகுந்தவை மற்றும் ஒன்றுக்கொன்று पूூர்த்திசெய்கின்றன. பொதுவாக நாம் ஆஃப்லைன் மதிப்பீட்டிலிருந்து தொடங்குவோம், ஏனெனில் இது எந்த முகவரையும் despley செய்யுமுன் குறைந்தபட்ச தேவையான படி ஆகும்.

ஆஃப்லைன் மதிப்பீடு

Langfuse இல் தரவுத்தொகுப்பு பொருட்கள்

இது ஒரு கட்டுப்படுத்தப்பட்ட சூழலில், பொதுவாக சோதனை தரவுத்தொகுப்புகளைப் பயன்படுத்தி, நேரடி பயனர் கேள்விகள் இல்லாமல் முகவரைக் கணக்கிடுவதை ಒಳக்கியது. நீங்கள் எதிர்பார்க்கப்படும் வெளியீடு அல்லது சரியான நடத்தை என்ன என்பது தெரிந்துகொள்ள கூடிய திரட்டப்பட்ட தரவுத்தொகுப்புகளைப் பயன்படுத்தி உங்கள் முகவரியை இயக்குகிறீர்கள்.

உதாரணமாக, நீங்கள் ஒரு கணித வார்த்தை-பிரச்சனை முகவரியை உருவாக்கினால், 100 பிரச்சனைகள் கொண்ட ஒரு சோதனை தரவுத்தொகுப்பு இருப்பவையாக இருக்கலாம், அவற்றுக்கு தெரிந்த பதில்கள் உள்ளன. ஆஃப்லைன் மதிப்பீடு பொதுவாக மேம்பாட்டின் போது (CI/CD குழாய்களில் ஒரு பகுதியாக) செய்யப்பட்டு மேம்பாடுகளைச் சோதிக்க அல்லது பின்தங்கல்களை தடுக்கும். நன்மை என்னவெனில் இது மறுபடியும் செய்யக்கூடியது மற்றும் தரநிலை உண்மையானது என்பதால் துல்லியத்தின் தெளிவான அளவுருக்களை பெற முடியும். நீங்கள் பயனர் கேள்விகளை ப(simulate) செய்யவும் முகவரியின் பதில்களை理சார்ந்த பதில்களோடு அல்லது மேலே விவரிக்கப்பட்ட தானியங்கி அளவுருக்களோடு ஒப்பிடவும் முடியும்.

ஆஃப்லைன் மதிப்பீட்டின் முக்கிய சவால் உங்கள் சோதனை தரவுத்தொகுப்பு விரிவானதாகவும் தொடர்புடையதும் இருந்து இருக்க வேண்டும் என்பதாகும் — ஒரு நிலையான சோதனை தொகுப்பில் முகவர் நன்றாக செயல்பட்டாலும், உற்பத்தியில் வெறுத்தவாறு வேறுபட்ட கேள்விகள் எதிர்கொள்ளக் கூடும். எனவே, நீங்கள் சோதனை தொகுப்புகளை புதிய எட்ஜ் கேஸ்களுடன் மற்றும் உண்மைக் காட்சிகளை பிரதிபலிக்க உதவக்கூடிய எடுத்துக்காட்டுகளுடன் புதுப்பித்து கொள்ள வேண்டும். சிறிய “ஸ்மோக் டெஸ்ட்” காட்சிகளும் பெரிய மதிப்பீட்டு தொகுப்புகளும் ஒரு கலவையாக பயன்படுகின்றன: விரைவு சரிபார்ப்புகளுக்காக சிறிய தொகுப்புகள் மற்றும் பரவலான செயல்திறன் அளவுருக்களுக்கு பெரியவை பயனுள்ளதாக இருக்கும்.

ஆன்லைன் மதிப்பீடு

கண்காணல் அளவுருக்கள் கண்ணோட்டம்

இது ஒரு நேரடி, உண்மையான சூழலில், அதாவது உற்பத்தியில் நடைமுறைப் பயன்பாட்டின்போது முகவரியை மதிப்பீடு செய்வதை குறிக்கிறது. ஆன்லைன் மதிப்பீடு உண்மையான பயனர் தொடர்புகளில் முகவரியின் செயல்திறனை கண்காணித்து தொடர்ச்சியாக முடிவுகளை பகுப்பாய்வு செய்வதைப் பொதுவாக உள்ளடக்கியது.

உதாரணமாக, நீங்கள் வெற்றி வீதங்கள், பயனர் திருப்தி மதிப்பெண்கள் அல்லது மற்ற மடல்முறைகள் போன்றவற்றை நேரடி போக்கில் கண்காணிக்கலாம். ஆன்லைன் மதிப்பீட்டின் நன்மை என்னவெனில் அது லேபில் சூழலில் நீங்கள் எதிர்பார்க்காத விஷயங்களைப் பற்றியும் பிடிபார்க்கிறது — மாதிரி செயல்திறன் காலத்துக்குப் போது மாறிவிடும் (input மாதிரிகள் மாறுவதால் முகவரின் விளைவுத்திறன் குறையலாம்) மற்றும் சோதனை தரவுகளில் இல்லாத எதிர்பாராத கேள்விகள் அல்லது நிலைகளைக் கண்டறிய முடியும். இது முகவர் வெளிப்படையாக இயங்கும் முறையின் உண்மையான படம் காட்டுகிறது.

ஆன்லைன் மதிப்பீடு பொதுவாக மறைமுக மற்றும் தெளிவான பயனர் பின்னூட்டங்களை சேகரிப்பதையும், நிழல்தோதும் சோதனைகள் அல்லது A/B சோதனைகள் நடத்துவதையும் (புதிய பதிப்பு பழையதுடன் ஒப்பிடப்படுவதற்காக இணைந்து இயக்கப்படும்) உள்ளடக்கலாம். சவால் என்னவெனில், நேரடி தொடர்புகளுக்கு நம்பகமான லேபிள்கள் அல்லது மதிப்பெண்களைப் பெறுவது கடினமாக இருக்கும் — நீங்கள் பயனர் பின்னூட்டம் அல்லது பின்னடைவு அளவுருக்கள் (உதாரணமாக பயனர் முடிவை கிளிக் செய்தாரா என்பது போன்ற) மீது சார்ந்திருக்கலாம்.

இரண்டும் இணைப்பது

ஆன்லைன் மற்றும் ஆஃப்லைன் மதிப்பீடுகள் பகிரங்கமில்லாமல்; அவை ஒருவருக்கொருவர் மிகவும் पूூர்த்திசெய்கின்றன. ஆன்லைனில் கண்காணிப்பு மூலம் கிடைக்கும்洞கங்கள் (eg., முகவர் தவறாக செயல்படும் புதிய வகை பயனர் கேள்விகள்) ஆஃப்லைன் சோதனை தரவுத்தொகுப்புகளை செந்தமிழ் செறிவிக்க பயன்படுத்தப்படலாம். மறுபுறம், ஆஃப்லைனில் நன்றாக செயல்படும் முகவர்கள் பின்னர் ஆன்லைனில் நம்பிக்கையுடன் நியமிக்கப்படலாம் மற்றும் கண்காணிக்கப்படலாம்.

உண்மையில், பல அணிகள் ஒரு சுழற்சியை ஏற்றுக்கொள்கின்றன:

ஆஃப்லைனில் மதிப்பீடு -> நியமிக்கவும் -> ஆன்லைனில் கண்காணிக்கவும் -> புதிய தோல்வி விவரங்களைச் சேகரிக்கவும் -> ஆஃப்லைன் தரவுத்தொகுப்பில் சேர்க்கவும் -> முகவரை மேம்படுத்தவும் -> மீண்டும் தொடர்.

பொதுவான பிரச்சினைகள்

உங்கள் AI முகவர்களை உற்பத்திக்கு கொண்டு செல்வதுடன், பல்வேறு சவால்களை எதிர்கொள்ளலாம். இங்கே சில பொதுவான பிரச்சினைகள் மற்றும் அவற்றுக்கான சாத்தியமான தீர்வுகள்:

பிரச்சினை	சாத்தியமான தீர்வு
முகவர் பணிகளை ஒரே மாதிரியான முறையில் தொடர்ந்து செய்யாமல் இருக்கிறது	- AI முகவக்கு வழங்கப்படும் ப்ராம்ப்ட்டை சீரமைக்கவும்; இலக்குகளை தெளிவாக குறிப்பிடவும். - பணிகளை உடைக்க subtasks ஆகி பல முகவர்கள் மூலம் கையாளப்படுவது எங்கே உதவும் என்பதை கண்டறியவும்.
முகவர் தொடர்ந்து லூப்புகளில் சிக்குகிறது	- முகவர் எப்போது செயல்முறையை நிறுத்த வேண்டும் என்பதற்கு தெளிவான முடிப்பு விதிமுறைகள் அமைக்கவும். - காரண்வளம் மற்றும் திட்டமிடல் தேவைப்படும் சிக்கலான பணிகளுக்கு, காரணவியல் பணிகளுக்கு சிறப்பு பெற்ற பெரிய மாடலைப் பயன்படுத்தவும்.
முகவர் கருவி அழைப்புகள் நன்கு செயல்படவில்லை	- கருவியின் வெளியீட்டை முகவர் அமைப்பின் வெளியே சோதித்து சரிபார்க்கவும். - குறிப்பிட்ட பரிமாணங்கள், ப்ராம்ப்ட்கள் மற்றும் கருவிகளின் பெயரிடலை சீரமைக்கவும்.
பல-முகவர் அமைப்பு ஒரே மாதிரியாக செயல்படவில்லை	- ஒவ்வொரு முகவரும் பெறும் ப்ராம்ப்ட்களை ஒவ்வொன்றாக பிரித்து தனிப்பட்டவையாகவும் வேறுபாட்டோடு இருப்பதற்கு சீரமைக்கவும். - எந்த முகவர் சரியானது என்று தீர்மானிக்க “routing” அல்லது கட்டுப்பாட்டு முகவரைப் பயன்படுத்தி ஒரு படிநிலைவியல் அமைப்பை கட்டமைக்கவும்.

இந்தப் பிரச்சினைகளில் பலவற்றை கண்காணல் செயல்பாடு இருந்தால் மிகவும் திறம்பட அடையாளம் காண முடியும். நாம் முன்பே விவாதித்த டிரேசுகள் மற்றும் அளவுருக்கள் எந்த இடத்தில் பிரச்சனை உருவாகிறது என்பதை துல்லியமாகக் காண்பிக்க உதவுகின்றன, இதனால் பிழைதிருத்தத்தும் செயல்திறன் விருத்தியும் மிகவும் விளக்கமாக அமைகிறது.

செலவுகள் நிர்வகித்தல்

AI ஏஜெண்ட்களை தயாரிப்பில் அமுல்படுத்தும் செலவுகளை நிர்வகிப்பதற்கான சில அணுகுமுறைகள் இங்கே:

Using Smaller Models: சிறிய மொழி மாதிரிகள் (Small Language Models, SLMs) சில ஏஜென்ட்-அடிப்படையிலான பயன்பாடுகளில் நல்ல செயல்திறனை வழங்கக்கூடியவை மற்றும் செலவுகளை குறிப்பிடத்தக்க அளவு குறைக்கலாம். முன்னதாக குறிப்பிடப்பட்டபோல், காரிய திறனை பெரிய மாதிரிகளுடன் ஒப்பிட்டுப் பார்க்கவும் தீர்மானிக்கவும் ஒரு மதிப்பீட்டு அமைப்பை உருவாக்குவது, ஒரு SLM உங்கள் பயன்பாட்டில் எவ்வளவு நன்றாக செயல்படுமென்பதை புரிந்து கொள்ள சிறந்த வழி. நோக்கம் வகைப்படுத்தல் (intent classification) அல்லது பராமீட்டர் அகற்றுதல் (parameter extraction) போன்ற எளிய பணிகளுக்கு SLMs ஐ பயன்படுத்த பரிசீலிக்கவும், சிக்கலான நியாயமிடலுக்காக பெரிய மாதிரிகளை ஒதுக்கி வைக்கவும்.

Using a Router Model: இதே போன்ற ஒரு மணையாளம் என்பது பலவகை மாதிரிகள் மற்றும் அளவுகளைக் பயன்படுத்துவதாகும். நீங்கள் கடினத்தன்மையின் அடிப்படையில் கோரிக்கைகளை சிறந்த பொருத்தமான மாதிரிகளுக்கு வழிமாற்ற LLM/SLM அல்லது serverless function ஐப் பயன்படுத்தலாம். இது சரியான பணிகளில் செயல்திறனை உறுதி செய்வதோடு செலவுகளையும் குறைக்க உதவும். உதாரணமாக, எளிய வினவல்களை சிறிய, வேகமான மாதிரிகளுக்கு வழிமாற்றவும், மற்றும் சிக்கலான நியாயமிடல் பணிகளுக்கு மட்டுமே செலவான பெரிய மாதிரிகளைப் பயன்படுத்தவும்.

Caching Responses: பொதுவாக வரும் கோரிக்கைகள் மற்றும் பணிகளை அடையாளம் காண்பதையும், அவை உங்கள் ஏஜென்ட் அமைப்புக்கு செல்லும் முன்னரே பதில்களை அளிப்பதையும் செய்வது, ஒரே மாதிரியான கோரிக்கை அளவை குறைப்பதில் சிறந்த வழியாகும். நீங்கள் மேலொன்றாக, அடிப்படை AI மாதிரிகளைப் பயன்படுத்தி ஒரு ஓட்டத்தை உருவாக்கி, ஒரு கோரிக்கை உங்கள் கேஷ் செய்த கோரிக்கைகளுடன் எவ்வளவு ஒத்துள்ளது என்பதை கண்டறியலாம். அடிக்கடி கேட்கப்படும் கேள்விகள் அல்லது பொதுவான வேலைப்பாடுகளுக்கு இந்தத் திட்டம் செலவுகளை குறிப்பிடத்தக்கভাবে குறைக்கக்கூடும்.

இது நடைமுறையில் எப்படி செயல்படுகிறது பார்ப்போம்

In the example notebook of this section, we’ll see examples of how we can use observability tools to monitor and evaluate our agent.

தயாரிப்பு நிலையில் AI ஏஜெண்ட்கள் பற்றி மேலும் கேள்விகள் இருக்கிறதா?

பிற கற்றலாளர்களை சந்திக்க, ஆபீஸ் நேரங்களில் கலந்து கொள்ள மற்றும் உங்கள் AI ஏஜெண்ட் தொடர்பான கேள்விகளுக்கு பதில்கள் பெற Microsoft Foundry Discord-இல் சேரவும்.

முந்தைய பாடம்

Metacognition Design Pattern

அடுத்த பாடம்

Agentic Protocols

மறுப்புரை: இந்த ஆவணம் AI மொழிபெயர்ப்பு சேவையாயான Co‑op Translator (https://github.com/Azure/co-op-translator) மூலம் மொழிபெயர்க்கப்பட்டது. நாங்கள் துல்லியத்திற்காக முயற்சித்தாலும், தானியங்கி மொழிபெயர்ப்புகளில் தவறுகள் அல்லது துல்லியமற்றவைகள் இருக்கலாம் என்பதை நினைவில் கொள்ளவும். அதன் சொந்த மொழியில் உள்ள அசல் ஆவணம் அதிகாரப்பூர்வ மூலமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்காக தொழில்முறை மனித மொழிபெயர்ப்பை பரிந்துரைக்கிறோம். இந்த மொழிபெயர்ப்பின் பயன்பாட்டினால் ஏற்படும் எந்தவொரு தவறான புரிதல்களுக்கும் அல்லது தவறான விளக்கங்களுக்கும் நாங்கள் பொறுப்பேற்க மாட்டோம்.

This site is open source. Improve this page.