ai-agents-for-beginners

কম্পিউটার ইউজ এজেন্ট (CUA) নির্মাণ

কম্পিউটার ইউজ এজেন্টগুলি ওয়েবসাইটের সাথে মানুষের মতোই ইন্টারঅ্যাক্ট করতে পারে: একটি ব্রাউজার খুলে, পেজটি পরিদর্শন করে এবং দেখা অনুযায়ী পরবর্তী সেরা কাজটি গ্রহণ করে। এই পাঠে, আপনি একটি ব্রাউজার অটোমেশন এজেন্ট তৈরি করবেন যা Airbnb অনুসন্ধান করে, কাঠামোবদ্ধ লিস্টিং ডেটা নির্যাস করে এবং স্টকহোমের সবচেয়ে সস্তা থাকার জায়গা সনাক্ত করে।

এই পাঠে AI-চালিত নেভিগেশন জন্য Browser-Use, ব্রাউজার নিয়ন্ত্রণ জন্য Playwright এবং Chrome DevTools Protocol (CDP), ভিশন-সক্ষম যুক্তির জন্য Azure OpenAI এবং কাঠামোবদ্ধ নির্যাস জন্য Pydantic একত্রিত করা হয়েছে।

ভুমিকা

এই পাঠে আলোচনা করা হবে:

শেখার লক্ষ্যসমূহ

এই পাঠ শেষ করার পর, আপনি জানবেন কীভাবে:

কোড নমুনা

এই পাঠে একটি নোটবুক টিউটোরিয়াল অন্তর্ভুক্ত:

পূর্বশর্ত

ব্যবস্থা

নোটবুকে ব্যবহৃত প্যাকেজগুলো ইন্সটল করুন:

pip install browser_use playwright python-dotenv
playwright install chromium

নোটবুকে ব্যবহৃত Azure OpenAI পরিবেশ ভেরিয়েবলগুলো সেট করুন:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ঐচ্ছিক: বাদ দিলে সর্বশেষ API সংস্করণে ডিফল্ট করা হয়
AZURE_OPENAI_API_VERSION=...

আর্কিটেকচারের ওভারভিউ

নোটবুক একটি হাইব্রিড ব্রাউজার অটোমেশন ওয়ার্কফ্লো প্রদর্শন করে:

  1. Chrome CDP সক্রিয় করে শুরু হয় যাতে Playwright এবং Browser-Use একই ব্রাউজার সেশন শেয়ার করতে পারে।
  2. একটি Browser-Use এজেন্ট বাতাসী নেভিগেশন কাজগুলি পরিচালনা করে যেমন Airbnb খোলা, পপ-আপ বন্ধ করা, এবং স্টকহোম অনুসন্ধান করা।
  3. সক্রিয় পেজ একটি কাঠামোবদ্ধ Pydantic স্কিমা দিয়ে পরিদর্শন করে লিস্টিং শিরোনাম, রাত্রিকালীন দাম, রেটিং, এবং URL নির্যাস করা হয়।
  4. পাইথন লজিক নির্যাস করা লিস্টিংগুলো তুলনা করে সবচেয়ে সস্তা ফলাফল হাইলাইট করে।

এই পদ্ধতি Browser-Use এর নমনীয়, ভিশন ভিত্তিক যুক্তি ধরে রাখে যখন আপনি ব্রাউজার নিয়ন্ত্রণ নির্দিষ্ট করতে চান তখনও তা প্রদান করে।

মূল বিষয় এবং সর্বোত্তম চর্চা

কখন এজেন্ট বনাম অভিনেতা ব্যবহার করবেন

পরিস্থিতি এজেন্ট ব্যবহার করুন অভিনেতা ব্যবহার করুন
ডাইনামিক লেআউট হ্যাঁ, AI পেজ পরিবর্তনের সাথে মানিয়ে নিতে পারে না, ভঙ্গুর সিলেক্টর ভেঙে যেতে পারে
পরিচিত কাঠামো না, এজেন্ট সরাসরি নিয়ন্ত্রণের চেয়ে ধীর হ্যাঁ, দ্রুত এবং সঠিক
উপাদান পাওয়া হ্যাঁ, প্রাকৃতিক ভাষা ভাল কাজ করে না, সঠিক সিলেক্টর প্রয়োজন
টাইমিং নিয়ন্ত্রণ না, কম পূর্বানুমেয় হ্যাঁ, অপেক্ষা ও পুনরায় চেষ্টা সম্পূর্ণ নিয়ন্ত্রণ
জটিল ওয়ার্কফ্লো হ্যাঁ, অপ্রত্যাশিত UI অবস্থাসমূহ পরিচালনা করে না, স্পষ্ট শাখাকরণ প্রয়োজন

Browser-Use সর্বোত্তম চর্চা

  1. অন্বেষণ ও ডাইনামিক নেভিগেশনের জন্য এজেন্ট দিয়ে শুরু করুন।
  2. ইন্টারঅ্যাকশন পূর্বানুমেয় হলে সরাসরি পেজ নিয়ন্ত্রণে স্যুইচ করুন।
  3. কাঠামোবদ্ধ আউটপুট মডেল ব্যবহার করুন যাতে নির্যাসকৃত ডেটা যাচাইযোগ্য ও টাইপ-নিরাপদ হয়।
  4. দৃশ্যমান UI পরিবর্তনগুলি ঘটানোর পর কৌশলগতভাবে বিলম্ব যুক্ত করুন।
  5. ব্যর্থতা সহজে ডিবাগ করার জন্য পুনরাবৃত্তির সময় স্ক্রিনশট নিন।
  6. ওয়েবসাইট পরিবর্তনশীল হতে পারে এমন প্রত্যাশা করুন এবং পপ-আপ এবং লেআউট পরিবর্তনের জন্য রুখে দাঁড়ানোর কৌশল নকশা করুন।
  7. নমনীয়তা এবং নির্ভুলতা উভয়ই পেতে এজেন্ট এবং অভিনেতা প্যাটার্ন একত্রিত করুন।

বাস্তব বিশ্ব প্রয়োগসমূহ

অতিরিক্ত সম্পদ


বিবৃতি:
এই নথিটি AI অনুবাদ সেবা Co-op Translator ব্যবহার করে অনূদিত হয়েছে। আমরা যথাসাধ্য সঠিকতার জন্য চেষ্টা করি, তবে দয়া করে জানুন যে স্বয়ংক্রিয় অনুবাদগুলিতে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল নথি তার নিজস্ব ভাষায় কর্তৃত্বস্বরূপ বিবেচিত হওয়া উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদের পরামর্শ দেওয়া হয়। অনুবাদের ব্যবহার থেকে উদ্ভূত যে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।