ai-agents-for-beginners

উৎপাদনে AI এজেন্ট: পর্যবেক্ষণযোগ্যতা ও মূল্যায়ন

যখন AI এজেন্টগুলি পরীক্ষামূলক প্রোটোটাইপ থেকে বাস্তব-জগতের অ্যাপে যেতে শুরু করে, তাদের আচরণ বুঝা, কর্মক্ষমতা মনিটর করা এবং তাদের আউটপুটগুলোকে সিস্টেম্যাটিকভাবে মূল্যায়ন করার ক্ষমতা গুরুত্বপূর্ণ হয়ে ওঠে।

শেখার লক্ষ্য

এই পাঠটি সম্পন্ন করার পর, আপনি জানবেন/বুঝতে পারবেন:

এজেন্ট পর্যবেক্ষণযোগ্যতা এবং মূল্যায়নের মূল ধারণা
এজেন্টের কর্মক্ষমতা, খরচ, এবং কার্যকারিতা উন্নত করার কৌশল
কি এবং কীভাবে আপনার AI এজেন্টগুলোকে সিস্টেম্যাটিকভাবে মূল্যায়ন করবেন
প্রোডাকশনে AI এজেন্ট মোতায়েন করার সময় কীভাবে খরচ নিয়ন্ত্রণ করবেন
Microsoft Agent Framework দিয়ে নির্মিত এজেন্টগুলিকে কীভাবে ইনস্ট্রুমেন্ট করবেন

লক্ষ্য হল আপনাকে এমন জ্ঞান equip করা যাতে আপনার “ব্ল্যাক বক্স” এজেন্টগুলোকে স্বচ্ছ, পরিচালনাযোগ্য, এবং নির্ভরযোগ্য সিস্টেমে রূপান্তর করা যায়।

দ্রষ্টব্য: নিরাপদ এবং বিশ্বাসযোগ্য AI এজেন্ট মোতায়েন করা গুরুত্বপূর্ণ। একই সঙ্গে বিশ্বাসযোগ্য AI এজেন্ট তৈরি করা পাঠটিও দেখুন।

ট্রেস এবং স্প্যান

পর্যবেক্ষণযোগ্যতা টুলগুলো যেমন Langfuse বা Microsoft Foundry সাধারণত এজেন্ট রানকে ট্রেস এবং স্প্যান হিসেবে উপস্থাপন করে।

ট্রেস পুরো এজেন্ট টাস্ককে শুরু থেকে শেষ পর্যন্ত উপস্থাপন করে (যেমন একটি ব্যবহারকারীর প্রশ্ন পরিচালনা করা)।
স্প্যান হল ট্রেসের ভিতরের পৃথক ধাপগুলো (যেমন একটি ল্যাঙ্গুয়েজ মডেল কল বা ডেটা অনুসন্ধান)।

Langfuse-এ ট্রেস ট্রি

পর্যবেক্ষণযোগ্যতা না থাকলে, একটি AI এজেন্ট একটি “ব্ল্যাক বক্স” মনে হতে পারে - এর অভ্যন্তরীণ অবস্থা এবং যুক্তি অস্পষ্ট থাকে, যার ফলে সমস্যা নির্ণয় বা কর্মক্ষমতা অপ্টিমাইজ করা কঠিন হয়ে যায়। পর্যবেক্ষণযোগ্যতার মাধ্যমে, এজেন্টগুলি “গ্লাস বক্স” হয়ে ওঠে, যা বিশ্বাস গড়ে তোলা এবং নিশ্চিত করা যে তারা প্রত্যাশিতভাবে কাজ করছে সেটিতে অত্যাবশ্যক স্বচ্ছতা প্রদান করে।

কেন প্রোডাকশন পরিবেশে পর্যবেক্ষণযোগ্যতা গুরুত্বপূর্ণ

AI এজেন্টগুলোকে প্রোডাকশনে স্থানান্তর করার সময় নতুন ধরণের চ্যালেঞ্জ এবং প্রয়োজনীয়তা আসে। পর্যবেক্ষণযোগ্যতা আর একটি “ভালো থাকলে ভালো” বিষয় নয়, বরং একটি গুরুত্বপূর্ণ সক্ষমতা:

ডিবাগিং এবং রুট-কজ বিশ্লেষণ: যখন একটি এজেন্ট ব্যর্থ হয় বা অপ্রত্যাশিত আউটপুট দেয়, পর্যবেক্ষণযোগ্যতা টুলগুলো সেই ত্রেসগুলো প্রদান করে যা ত্রুটির উৎস নির্ধারণে সাহায্য করে। এটি বিশেষভাবে গুরুত্বপূর্ণ জটিল এজেন্টগুলোর জন্য যেগুলোতে বহু LLM কল, টুল ইন্টারঅ্যাকশন, এবং শর্তসাপেক্ষ লজিক থাকতে পারে।
ল্যাটেন্সি এবং খরচ ব্যবস্থাপনা: AI এজেন্ট অনেক সময় LLM এবং অন্যান্য বহিরাগত API-র উপর নির্ভর করে যেগুলো প্রতি টোকেন বা প্রতি কল অনুযায়ী বিল করা হয়। পর্যবেক্ষণযোগ্যতা এসব কলগুলো সঠিকভাবে ট্র্যাক করার সুযোগ দেয়, যাতে ধীর বা ব্যয়বহুল অপারেশনগুলো চিহ্নিত করা যায়। এতে টিমগুলোকে প্রম্পট অপ্টিমাইজ করা, আরও কার্যকর মডেল নির্বাচন করা, অথবা কার্যপ্রবাহ পুনরায় ডিজাইন করে অপারেশনাল খরচ নিয়ন্ত্রণ করা এবং ভাল ব্যবহারকারীর অভিজ্ঞতা নিশ্চিত করা যায়।
বিশ্বাস, নিরাপত্তা, এবং সম্মতি: অনেক অ্যাপ্লিকেশনে এটি নিশ্চিত করা গুরুত্বপূর্ণ যে এজেন্টগুলো সুরক্ষিত এবং নৈতিকভাবে আচরণ করছে। পর্যবেক্ষণযোগ্যতা এজেন্টের ক্রিয়া ও সিদ্ধান্তগুলোর অডিট ট্রেইল প্রদান করে। ამას ব্যবহার করে প্রম্পট ইনজেকশন, ক্ষতিকর কন্টেন্ট উৎপন্ন করা, বা ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII) অনিয়মিত ব্যবহারের মতো সমস্যা সনাক্ত ও হ্রাস করা যায়। উদাহরণস্বরূপ, আপনি ট্রেসগুলো পর্যালোচনা করে বুঝতে পারেন কেন একটি এজেন্ট নির্দিষ্ট উত্তর দিয়েছে বা কোনো নির্দিষ্ট টুল ব্যবহার করেছে।
নিরंतर উন্নতির লুপ: পর্যবেক্ষণযোগ্যতা ডাটা একটি পুনর্বিবেচনামূলক উন্নয়ন প্রক্রিয়ার ভিত্তি। বাস্তবে এজেন্টগুলো কিভাবে পারফর্ম করছে তা মনিটর করে টিমগুলো উন্নতির ক্ষেত্রগুলো চিহ্নিত করতে পারে, মডেল ফাইন-টিউনিংয়ের জন্য ডাটা সংগ্রহ করতে পারে, এবং পরিবর্তনের প্রভাব যাচাই করতে পারে। এটি একটি ফিডব্যাক লুপ তৈরি করে যেখানে অনলাইনের মূল্যায়ন থেকে প্রাপ্ত প্রোডাকশন অন্তর্দৃষ্টি অফলাইন পরীক্ষায় ও এক্সপেরিমেন্টেশন-এ ব্যবহৃত হয়, ফলস্বরূপ ক্রমবর্ধমান উন্নত এজেন্ট কর্মক্ষমতা।

ট্র্যাক করার মূল মেট্রিক্স

এজেন্ট আচরণ মনিটর এবং বোঝার জন্য বিভিন্ন মেট্রিক্স ও সিগন্যাল ট্র্যাক করা উচিত। নির্দিষ্ট মেট্রিক্সগুলো এজেন্টের উদ্দেশ্যের উপর নির্ভর করে পরিবর্তিত হতে পারে, তবে কিছু মেট্রিকস সার্বজনীনভাবে গুরুত্বপূর্ণ।

এখানে কিছু সবচেয়ে সাধারণ মেট্রিক্স রয়েছে যেগুলো পর্যবেক্ষণযোগ্যতা টুলগুলো মনিটর করে:

ল্যাটেন্সি: এজেন্ট কত দ্রুত প্রতিক্রিয়া দেয়? দীর্ঘ অপেক্ষার সময় ব্যবহারকারীর অভিজ্ঞতার উপর নেতিবাচক প্রভাব ফেলে। আপনাকে টাস্ক এবং পৃথক ধাপগুলোর জন্য ল্যাটেন্সি পরিমাপ করতে হবে ট্রেস করে। উদাহরণস্বরূপ, যদি একটি এজেন্ট সমস্ত মডেল কলের জন্য 20 সেকেন্ড নিয়ে থাকে, তাহলে দ্রুততর মডেল ব্যবহার করা বা মডেল কলগুলো সমান্তরালে চালিয়ে গতি বাড়ানো যেতে পারে।

খরচ: প্রতি এজেন্ট রান কত খরচ হয়? AI এজেন্টরা LLM কল বা বহিরাগত API-র উপর নির্ভর করে যা প্রতি টোকেন বা প্রতি কল অনুযায়ী বিল করা হয়। ঘন ঘন টুল ব্যবহার বা একাধিক প্রম্পট দ্রুত খরচ বাড়াতে পারে। উদাহরণস্বরূপ, যদি একটি এজেন্ট মান উন্নতির জন্য পাঁচবার LLM কল করে, তাহলে আপনাকে মূল্যায়ন করতে হবে কি খরচটি যুক্তিসংগত নাকি কলের সংখ্যা কমানো বা সস্তা মডেল ব্যবহারের মাধ্যমে খরচ কমানো যায়। রিয়েল-টাইম মনিটরিং অনাকাঙ্ক্ষিত স্পাইকের (যেমন বাগের কারণে অতিরিক্ত API লুপ) সনাক্ত করতেও সাহায্য করে।

রিকোয়েস্ট ত্রুটি: এজেন্ট কতগুলো রিকোয়েস্টে ব্যর্থ হয়েছে? এতে API ত্রুটি বা ব্যর্থ টুল কল অন্তর্ভুক্ত থাকতে পারে। প্রোডাকশনে এগুলোর বিরুদ্ধে আপনার এজেন্টটিকে আরও রোবাস্ট করতে, আপনি ফ্যালব্যাক বা রিট্রাই সেটআপ করতে পারেন। উদাহরণস্বরূপ, যদি LLM প্রদানকারী A ডাউন থাকে, আপনি ব্যাকআপ হিসেবে LLM প্রদানকারী B-তে সুইচ করতে পারেন।

ব্যবহারকারীর ফিডব্যাক: সরাসরি ব্যবহারকারীর মূল্যায়ন বাস্তব তথ্য দেয়। এতে স্পষ্ট রেটিং (👍 ভালো/👎 খারাপ, ⭐1-5 তারা) বা লেখ্য মন্তব্য অন্তর্ভুক্ত থাকতে পারে। ধারাবাহিক নেগেটিভ ফিডব্যাক আপনাকে সতর্ক করা উচিত কারণ এটি একটি সংকেত যে এজেন্ট প্রত্যাশা অনুযায়ী কাজ করছে না।

অপ্রকাশ্য ব্যবহারকারী ফিডব্যাক: ব্যবহারকারীর আচরণ স্পষ্ট রেটিং ছাড়াও পরোক্ষ ফিডব্যাক দেয়। এতে প্রশ্ন দ্রুত পুনরায় ফ্রেজ করা, পুনরাবৃত্তি কিউরি বা রিট্রাই বোতামে ক্লিক করা অন্তর্ভুক্ত হতে পারে। উদাহরণস্বরূপ, যদি আপনি দেখতে পাচ্ছেন যে ব্যবহারকারীরা বারবার একই প্রশ্ন করছে, তাহলে এটা একটি সংকেত যে এজেন্ট প্রত্যাশা অনুযায়ী কাজ করছে না।

নির্ভুলতা: এজেন্ট কতবার সঠিক বা কাঙ্ক্ষিত আউটপুট দিচ্ছে? নির্ভুলতার সংজ্ঞা ভিন্ন হতে পারে (যেমন সমস্যার সমাধান সঠিকতা, তথ্য অনুসন্ধান নির্ভুলতা, ব্যবহারকারী সন্তুষ্টি)। প্রথম ধাপ হল আপনার এজেন্টের জন্য সফলতা কেমন দেখায় তা সংজ্ঞায়িত করা। আপনি স্বয়ংক্রিয় চেক, মূল্যায়ন স্কোর, বা টাস্ক সম্পন্নতা লেবেলের মাধ্যমে নির্ভুলতা ট্র্যাক করতে পারেন। উদাহরণস্বরূপ, ট্রেসগুলোকে “সফল” বা “ব্যর্থ” হিসেবে চিহ্নিত করা।

স্বয়ংক্রিয় মূল্যায়ন মেট্রিক্স: আপনি স্বয়ংক্রিয় ইভ্যাল সেটআপও করতে পারেন। উদাহরণস্বরূপ, আপনি একটি LLM ব্যবহার করে এজেন্টের আউটপুট স্কোর করতে পারেন, যেমন এটি সহায়ক কিনা, নির্ভুল কিনা ইত্যাদি। এছাড়াও এমন কয়েকটি ওপেন সোর্স লাইব্রেরি আছে যা এজেন্টের বিভিন্ন দিক স্কোর করতে সহায়তা করে। উদাহরণস্বরূপ RAGAS RAG এজেন্টদের জন্য বা LLM Guard ক্ষতিকর ভাষা বা প্রম্পট ইনজেকশন সনাক্ত করতে।

প্রকৃতপক্ষে, এই মেট্রিক্সগুলোর একটি সংমিশ্রণ AI এজেন্টের স্বাস্থ্যের সর্বোত্তম কভারেজ দেয়। এই অধ্যায়ের উদাহরণ নোটবুক-এ আমরা দেখাবো এগুলো বাস্তবে কেমন দেখায় কিন্তু তার আগে, চলুন শিখে নেওয়া যাক একটি স্বাভাবিক মূল্যায়ন কর্মপ্রবাহ কেমন লাগে।

আপনার এজেন্টকে ইনস্ট্রুমেন্ট করুন

ট্রেসিং ডাটা সংগ্রহ করতে, আপনাকে আপনার কোড ইনস্ট্রুমেন্ট করতে হবে। লক্ষ্য হল এমনভাবে এজেন্ট কোড ইনস্ট্রুমেন্ট করা যাতে সেটি ট্রেস এবং মেট্রিকস এমিট করে যা একটি পর্যবেক্ষণযোগ্যতা প্ল্যাটফর্ম দ্বারা ক্যাপচার, প্রসেস এবং ভিজ্যুয়ালাইজ করা যায়।

OpenTelemetry (OTel): OpenTelemetry LLM পর্যবেক্ষণযোগ্যতার জন্য শিল্পমাপকাঠি হিসেবে উদ্ভূত হয়েছে। এটি টেলেমেট্রি ডাটা তৈরি, সংগ্রহ, এবং এক্সপোর্ট করার জন্য API, SDK, এবং টুল সরবরাহ করে।

অনেক ইনস্ট্রুমেন্টেশন লাইব্রেরি আছে যা বিদ্যমান এজেন্ট ফ্রেমওয়ার্কগুলিকে র‍্যাপ করে এবং OpenTelemetry স্প্যানগুলোকে একটি পর্যবেক্ষণযোগ্যতা টুলে সহজে এক্সপোর্ট করতে সাহায্য করে। Microsoft Agent Framework nativity-করে OpenTelemetry-র সাথে ইন্টিগ্রেট করে। নিচে MAF এজেন্ট ইনস্ট্রুমেন্ট করার একটি উদাহরণ আছে:

from agent_framework.observability import get_tracer, get_meter

tracer = get_tracer()
meter = get_meter()

with tracer.start_as_current_span("agent_run"):
    # এজেন্টের কার্যক্রম স্বয়ংক্রিয়ভাবে ট্রেস করা হয়
    pass

এই অধ্যায়ের উদাহরণ নোটবুক আপনাকে দেখাবে কীভাবে আপনার MAF এজেন্ট ইনস্ট্রুমেন্ট করতে হয়।

ম্যানুয়াল স্প্যান সৃষ্টি: ইনস্ট্রুমেন্টেশন লাইব্রেরিগুলো একটি ভাল বেসলাইন দেয়, তবে প্রায়শই এমন পরিস্থিতি থাকে যেখানে আরও বিস্তারিত বা কাস্টম তথ্য প্রয়োজন। আপনি কাস্টম অ্যাপ্লিকেশন লজিক যোগ করতে ম্যানুয়ালি স্প্যান তৈরি করতে পারেন। আরও গুরুত্বপূর্ণভাবে, এগুলো স্বয়ংক্রিয় বা ম্যানুয়ালি তৈরি করা স্প্যানগুলিকে কাস্টম অ্যাট্রিবিউট (ট্যাগ বা মেটাডেটা নামেও পরিচিত) দিয়ে সমৃদ্ধ করতে পারে। এই অ্যাট্রিবিউটগুলিতে ব্যবসাসংক্রান্ত ডেটা, মধ্যবর্তী গণনা, বা ডিবাগিং বা বিশ্লেষণের জন্য উপকারি যে কোনও কনটেক্সট থাকতে পারে, যেমন user_id, session_id, বা model_version।

Langfuse Python SDK দিয়ে ম্যানুয়ালি ট্রেস এবং স্প্যান তৈরি করার উদাহরণ:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

এজেন্ট মূল্যায়ন

পর্যবেক্ষণযোগ্যতা আমাদের মেট্রিক্স দেয়, কিন্তু মূল্যায়ন হল সেই ডাটাকে বিশ্লেষণ করা (এবং টেস্ট করা) যাতে নির্ধারণ করা যায় একটি AI এজেন্ট কতটা ভাল পারফর্ম করছে এবং কীভাবে তা উন্নত করা যেতে পারে। অন্য কথায়, একবার আপনার কাছে ট্রেস এবং মেট্রিক্স থাকলে, আপনি সেগুলো ব্যবহার করে কীভাবে এজেন্টকে বিচার করবেন এবং সিদ্ধান্ত নেবেন?

নিয়মিত মূল্যায়ন গুরুত্বপূর্ণ কারণ AI এজেন্টগুলো প্রায়শই অ-ডিটারমিনিস্টিক এবং সময়ের সঙ্গে (আপডেট বা মডেল বিহেভিয়ারের ড্রিফটের মাধ্যমে) পরিবর্তিত হতে পারে – মূল্যায়ন ছাড়া আপনি জানবেন না আপনার “স্মার্ট এজেন্ট” আসলে তার কাজ ভালোভাবে করছে কী না বা তা অবনতি হয়েছে কিনা।

AI এজেন্টদের জন্য দুই ধরণের মূল্যায়ন আছে: অনলাইন মূল্যায়ন এবং অফলাইন মূল্যায়ন। উভয়ই মূল্যবান এবং একে অপরকে পরিপূরক করে। আমরা সাধারণত অফলাইন মূল্যায়ন দিয়ে শুরু করি, কারণ এটি কোনো এজেন্ট মোতায়েনের পূর্বে ন্যূনতম প্রয়োজনীয় পদক্ষেপ।

অফলাইন মূল্যায়ন

Dataset items in Langfuse

এটি একটি নিয়ন্ত্রিত পরিবেশে এজেন্টকে মূল্যায়ন করা জড়িত করে, সাধারণত টেস্ট ডেটাসেট ব্যবহার করে, লাইভ ব্যবহারকারীর কৌতূহল নয়। আপনি কিউরেট করা ডেটাসেট ব্যবহার করেন যেখানে আপনি জানেন প্রত্যাশিত আউটপুট বা সঠিক আচরণ কী, এবং তারপর আপনার এজেন্টকে সেগুলোর উপর চালান।

উদাহরণস্বরূপ, যদি আপনি একটি গণিত ওয়ার্ড-প্রব্লেম এজেন্ট তৈরি করে থাকেন, আপনার কাছে হতে পারে 100টি সমস্যার একটি টেস্ট ডেটাসেট যার известных উত্তর আছে। অফলাইন মূল্যায়ন প্রায়শই উন্নয়নের সময় করা হয় (এবং CI/CD পাইপলাইনের অংশ হতে পারে) উন্নতি পরীক্ষা করতে বা রিগ্রেশন প্রতিরোধ করতে। সুবিধা হচ্ছে এটি পুনরাবৃত্তিযোগ্য এবং স্পষ্ট নির্ভুলতার মেট্রিক্স দেয় কারণ আপনার কাছে গ্রাউন্ড ট্রুথ আছে। আপনি ব্যবহারকারীর কিউরিগুলো সিমুলেট করেও এজেন্টের উত্তরগুলোকে আদর্শ উত্তরগুলোর বিরুদ্ধে পরিমাপ করতে পারেন বা উপরে বর্ণিত স্বয়ংক্রিয় মেট্রিক্স ব্যবহার করতে পারেন।

অফলাইন ইভ্যালের মূল চ্যালেঞ্জ হল নিশ্চিত করা যে আপনার টেস্ট ডেটাসেট বিস্তৃত এবং প্রাসঙ্গিক থাকছে – এজেন্টটি একটি নির্দিষ্ট টেস্ট সেটে ভাল পারফর্ম করতে পারে কিন্তু প্রোডাকশনে অনেক আলাদা ধরনের কিউরি সম্মুখীন হতে পারে। অতএব, আপনার টেস্ট সেটগুলোকে নতুন এজ edge কেস এবং বাস্তব-জগতের দৃশ্যগুলিকে প্রতিফলিত করার জন্য আপডেট রাখা উচিত। ছোট “স্মোক টেস্ট” কেস এবং বড় ইভ্যাল সেটগুলোর মিশ্রণ উপকারী: দ্রুত পরীক্ষার জন্য ছোট সেট এবং বিস্তৃত কর্মক্ষমতার জন্য বড় সেট ব্যবহার করা যায়।

অনলাইন মূল্যায়ন

Observability metrics overview

এটি লাইভ, বাস্তব-জগতের পরিবেশে এজেন্টকে মূল্যায়ন করার বিষয়, অর্থাৎ প্রোডাকশনে বাস্তব ব্যবহার চলাকালীন। অনলাইন মূল্যায়ন বাস্তবে ব্যবহারকারীর ইন্টারঅ্যাকশনের উপর এজেন্টের কর্মক্ষমতা মনিটর করা এবং ফলাফলসমূহ ধারাবাহিকভাবে বিশ্লেষণ করা জড়িত।

উদাহরণস্বরূপ, আপনি সফলতার হার, ব্যবহারকারী সন্তুষ্টি স্কোর, বা লাইভ ট্র্যাফিকে অন্য মেট্রিক্স ট্র্যাক করতে পারেন। অনলাইন মূল্যায়নের সুবিধা হল এটি ল্যাব সেটিং-এ আপনি যা অপ্রত্যাশিত থাকতে পারেন তা ক্যাপচার করে – আপনি সময়ের সাথে মডেল ড্রিফট দেখতে পারেন (যদি ইনপুট প্যাটার্ন পরিবর্তিত হওয়ার ফলে এজেন্টের কার্যকারিতা কমে) এবং এমন অনাকাঙ্ক্ষিত কিউরি বা পরিস্থিতি ধরতে পারেন যা আপনার টেস্ট ডেটায় ছিল না। এটি সত্যিকার অর্থে দেখায় এজেন্ট বনে কেমন আচরণ করে।

অনলাইন মূল্যায়ন প্রায়শই অপ্রকাশ্য ও প্রকাশ্য ব্যবহারকারী ফিডব্যাক সংগ্রহ করে, এবং সম্ভবত শ্যাডো টেস্ট বা A/B টেস্ট চালায় (যেখানে নতুন সংস্করণটি পুরোনো ভার্সনের সাথে তুলনা করার জন্য প্যারালেলভাবে চালায়)। চ্যালেঞ্জ হল লাইভ ইন্টারঅ্যাকশনের জন্য নির্ভরযোগ্য লেবেল বা স্কোর পেতে কষ্টসাধ্য হতে পারে – আপনাকে ব্যবহারকারী ফিডব্যাক বা ডাউনস্ট্রিম মেট্রিক্স (যেমন ব্যবহারকারী ফলাফল ক্লিক করেছে কিনা) নির্ভর করতে হতে পারে।

দুটো মিলিয়ে ব্যবহার

অনলাইন এবং অফলাইন মূল্যায়ন পরস্পরবিরোধী নয়; তারা অত্যন্ত পরিপূরক। অনলাইন মনিটরিং থেকে পাওয়া অন্তর্দৃষ্টি (যেমন নতুন ধরনের ব্যবহারকারীর কিউরি যেখানে এজেন্ট খারাপ পারফর্ম করছে) অফলাইন টেস্ট ডেটাসেটকে বৃদ্ধি এবং উন্নত করতে ব্যবহার করা যেতে পারে। বিপরীতে, যে এজেন্টগুলো অফলাইন টেস্টে ভাল কাজ করে তারা অনলাইনে আরও আত্মবিশ্বাসের সাথে মোতায়েন ও মনিটর করা যায়।

বাস্তবে অনেক টিম একটি লুপ গ্রহন করে:

অফলাইনে মূল্যায়ন -> মোতায়েন -> অনলাইনে মনিটর -> নতুন ব্যর্থ কেস সংগ্রহ -> অফলাইন ডেটাসেটে যোগ -> এজেন্ট পরিশীলন -> পুনরাবৃত্তি.

সাধারণ সমস্যা

আপনি যখন AI এজেন্টগুলো প্রোডাকশনে মোতায়েন করবেন, বিভিন্ন চ্যালেঞ্জের সম্মুখীন হতে পারেন। এখানে কিছু সাধারণ সমস্যা এবং সম্ভাব্য সমাধান দেয়া হলো:

সমস্যা	সম্ভাব্য সমাধান
AI Agent not performing tasks consistently	- AI এজেন্টকে দেওয়া প্রম্পট পরিমার্জন করুন; লক্ষ্যগুলো স্পষ্ট করুন। - নির্ণয় করুন কোথায় কাজগুলো উপ-কাজে ভাগ করে একাধিক এজেন্ট দ্বারা হ্যান্ডেল করলে সাহায্য হবে।
AI Agent running into continuous loops	- নিশ্চিত করুন আপনার কাছে স্পষ্ট টার্মিনেশন শর্তাবলী আছে যাতে এজেন্ট জানে কখন প্রক্রিয়া বন্ধ করতে হবে। - যুক্তিতর্ক এবং পরিকল্পনার প্রয়োজন এমন জটিল টাস্কগুলোর জন্য reasoning টাস্কের জন্য বিশেষায়িত একটি বড় মডেল ব্যবহার করুন।
AI Agent tool calls are not performing well	- টুলটির আউটপুট এজেন্ট সিস্টেমের বাইরে টেস্ট ও ভ্যালিডেট করুন। - টুলের সংজ্ঞায়িত প্যারামিটার, প্রম্পট এবং নামকরণ পরিমার্জন করুন।
Multi-Agent system not performing consistently	- প্রতিটি এজেন্টকে দেওয়া প্রম্পটগুলো পরিশোধন করুন যাতে সেগুলো সুনির্দিষ্ট এবং একে অপর থেকে পৃথক থাকে। - কোন এজেন্টটি সঠিক তা নির্ধারণ করার জন্য একটি “রাউটিং” বা কন্ট্রোলার এজেন্ট ব্যবহার করে একটি শ্রেণিবিন্যাসমূলক সিস্টেম তৈরি করুন।

এই সমস্যাগুলোর অনেকটাই পর্যবেক্ষণযোগ্যতা উপস্থিত থাকলে আরও কার্যকরভাবে শনাক্ত করা যায়। আগের অংশে আলোচনা করা ট্রেস এবং মেট্রিক্সগুলো সঠিকভাবে নির্দেশ করে কোথায় এজেন্টের ওয়ার্কফ্লোতে সমস্যা হচ্ছে, ফলে ডিবাগিং এবং অপ্টিমাইজেশন অনেক বেশি কার্যকর হয়।

খরচ পরিচালনা

এখানে কিছু কৌশল আছে যা AI এজেন্টকে প্রোডাকশনে মোতায়েন করার খরচ পরিচালনা করতে সাহায্য করবে:

ছোট মডেল ব্যবহার করা: Small Language Models (SLMs) নির্দিষ্ট এজেন্টিক ইউজ-কেসে ভালো কাজ করতে পারে এবং খরচ উল্লেখযোগ্যভাবে কমাবে। আগেও যেমন বলা হয়েছে, পারফরম্যান্স নির্ধারণ এবং বড় মডেলগুলোর সাথে তুলনা করার জন্য একটি মূল্যায়ন ব্যবস্থা তৈরি করাই বুঝতে সাহায্য করে যে একটি SLM আপনার ইউজকেসে কতটা ভাল পারফর্ম করবে। ইনটেন্ট শ্রেণীবিভাগ বা প্যারামিটার এক্সট্র্যাকশনের মতো সহজ কাজের জন্য SLMs ব্যবহার বিবেচনা করুন, আর জটিল রিজনিং-এর জন্য বড় মডেল সংরক্ষণ করুন।

রাউটার মডেল ব্যবহার করা: একটি অনুরূপ কৌশল হল বিভিন্ন মডেল ও আকার ব্যবহার করা। আপনি জটিলতার ভিত্তিতে অনুরোধগুলো সঠিক মডেলে রাউট করার জন্য LLM/SLM বা সার্ভারলেস ফাংশন ব্যবহার করতে পারেন। এটি খরচও কমাতে সাহায্য করবে এবং ঠিক কাজগুলোর জন্য পারফরম্যান্স নিশ্চিত করবে। উদাহরণস্বরূপ, সহজ কুয়েরিগুলো ছোট, দ্রুত মডেলে রাউট করুন এবং জটিল রিজনিং টাস্কগুলোর জন্য শুধুমাত্র ব্যয়বহুল বড় মডেল ব্যবহার করুন।

রেসপন্স ক্যাশিং: সাধারণ অনুরোধ এবং টাস্কগুলিকে শনাক্ত করা এবং সেগুলোর উত্তর আপনার এজেন্টিক সিস্টেমে যাওার আগে প্রদান করা একই ধরনের অনুরোধের পরিমাণ কমানোর একটি ভাল উপায়। আপনি এমন একটি ফ্লোও বাস্তবায়ন করতে পারেন যা আরও মৌলিক AI মডেল ব্যবহার করে নিরূপণ করবে একটি অনুরোধটি আপনার ক্যাশকৃত অনুরোধগুলোর সাথে কতটা মিল রয়েছে। ফ্রিকোয়েন্টলি আসা প্রশ্ন বা সাধারণ ওয়ার্কফ্লোগুলোর জন্য এই কৌশলটি খরচ উল্লেখযোগ্যভাবে কমিয়ে দিতে পারে।

চলুন দেখা যাক এটি অনুশীলনে কিভাবে কাজ করে

এই বিভাগের উদাহরণ নোটবুক, আমরা দেখব কীভাবে আমরা পর্যবেক্ষণযোগ্যতা টুলগুলি ব্যবহার করে আমাদের এজেন্ট মনিটর এবং মূল্যায়ন করতে পারি এর উদাহরণ।

প্রোডাকশনে AI এজেন্ট নিয়ে আরো প্রশ্ন আছে?

অন্যান্য শিক্ষার্থীদের সাথে দেখা করতে, অফিস আওয়ারসে অংশ নিতে এবং আপনার AI এজেন্ট সম্পর্কিত প্রশ্নগুলোর উত্তর পেতে Microsoft Foundry Discord এ যোগ দিন।

পূর্ববর্তী পাঠ

মেটাকগনিশন ডিজাইন প্যাটার্ন

পরবর্তী পাঠ

এজেন্টিক প্রোটোকলস

দায়-অস্বীকৃতি: এই নথিটি AI অনুবাদ সেবা Co-op Translator (https://github.com/Azure/co-op-translator) ব্যবহার করে অনুবাদ করা হয়েছে। আমরা যথাসাধ্য সঠিকতার চেষ্টা করি, তবুও অনুগ্রহ করে মনে রাখুন যে স্বয়ংক্রিয় অনুবাদে ত্রুটি বা অসম্পূর্ণতা থাকতে পারে। মূল ভাষায় থাকা নথিকেই প্রামাণিক উৎস হিসেবে গণ্য করা উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদই薦া হয়। এই অনুবাদ ব্যবহারের ফলে সংঘটিত কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যের জন্য আমরা দায়ী নই।

This site is open source. Improve this page.