কম্পিউটার ইউজ এজেন্ট (CUA) নির্মাণ
কম্পিউটার ইউজ এজেন্টগুলি ওয়েবসাইটের সাথে মানুষের মতোই ইন্টারঅ্যাক্ট করতে পারে: একটি ব্রাউজার খুলে, পেজটি পরিদর্শন করে এবং দেখা অনুযায়ী পরবর্তী সেরা কাজটি গ্রহণ করে। এই পাঠে, আপনি একটি ব্রাউজার অটোমেশন এজেন্ট তৈরি করবেন যা Airbnb অনুসন্ধান করে, কাঠামোবদ্ধ লিস্টিং ডেটা নির্যাস করে এবং স্টকহোমের সবচেয়ে সস্তা থাকার জায়গা সনাক্ত করে।
এই পাঠে AI-চালিত নেভিগেশন জন্য Browser-Use, ব্রাউজার নিয়ন্ত্রণ জন্য Playwright এবং Chrome DevTools Protocol (CDP), ভিশন-সক্ষম যুক্তির জন্য Azure OpenAI এবং কাঠামোবদ্ধ নির্যাস জন্য Pydantic একত্রিত করা হয়েছে।
ভুমিকা
এই পাঠে আলোচনা করা হবে:
- কখন কম্পিউটার ইউজ এজেন্ট API-শুধু অটোমেশনের চেয়ে বেশি উপযুক্ত
- বিশ্বাসযোগ্য ব্রাউজার লাইফসাইকেল ব্যবস্থাপনার জন্য Browser-Use কে Playwright এবং CDP সাথে একত্রিত করা
- অ্যাজুর OpenAI ভিশন এবং কাঠামোবদ্ধ Pydantic আউটপুট ব্যবহার করে ডাইনামিক ওয়েব পেজ থেকে লিস্টিং ডেটা নির্যাস করা
- কখন এজেন্ট-প্রথম, অভিনেতা-প্রথম, অথবা হাইব্রিড ব্রাউজার অটোমেশন ওয়ার্কফ্লো ব্যবহার করবেন তা নির্ধারণ করা
শেখার লক্ষ্যসমূহ
এই পাঠ শেষ করার পর, আপনি জানবেন কীভাবে:
- Azure OpenAI এবং Playwright সহ Browser-Use কনফিগার করবেন
- একটি বাস্তব ওয়েবসাইট নেভিগেট করে এবং ডাইনামিক UI উপাদান হ্যান্ডেল করে ব্রাউজার অটোমেশন ওয়ার্কফ্লো তৈরি করবেন
- দৃশ্যমান পেজ সামগ্রী থেকে টাইপ করা ফলাফল নির্যাস করে সেগুলোকে ব্যাবসায়িক লজিকে রূপান্তর করবেন
- ব্রাউজার কাজ কতটা পূর্বানুমেয় তার ওপর ভিত্তি করে এজেন্ট এবং অভিনেতা প্যাটার্নের মধ্যে নির্বাচন করবেন
কোড নমুনা
এই পাঠে একটি নোটবুক টিউটোরিয়াল অন্তর্ভুক্ত:
- 15-browser-user.ipynb: CDP এর মাধ্যমে একটি ক্রোম সেশন চালু করে, Airbnb তে স্টকহোম লিস্টিং অনুসন্ধান করে, Browser-Use ভিশন দিয়ে দাম নির্যাস করে এবং সবচেয়ে সস্তা বিকল্প কাঠামোবদ্ধ ডেটা হিসেবে ফেরত দেয়।
পূর্বশর্ত
- পাইথন 3.12+
- আপনার পরিবেশে Azure OpenAI ডিপ্লয়মেন্ট কনফিগার করা
- স্থানীয়ভাবে Chrome বা Chromium ইন্সটল করা
- Playwright নির্ভরতা ইন্সটল করা
- অ্যাসিঙ্ক পাইথনের মৌলিক পরিচয়
ব্যবস্থা
নোটবুকে ব্যবহৃত প্যাকেজগুলো ইন্সটল করুন:
pip install browser_use playwright python-dotenv
playwright install chromium
নোটবুকে ব্যবহৃত Azure OpenAI পরিবেশ ভেরিয়েবলগুলো সেট করুন:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ঐচ্ছিক: বাদ দিলে সর্বশেষ API সংস্করণে ডিফল্ট করা হয়
AZURE_OPENAI_API_VERSION=...
আর্কিটেকচারের ওভারভিউ
নোটবুক একটি হাইব্রিড ব্রাউজার অটোমেশন ওয়ার্কফ্লো প্রদর্শন করে:
- Chrome CDP সক্রিয় করে শুরু হয় যাতে Playwright এবং Browser-Use একই ব্রাউজার সেশন শেয়ার করতে পারে।
- একটি Browser-Use এজেন্ট বাতাসী নেভিগেশন কাজগুলি পরিচালনা করে যেমন Airbnb খোলা, পপ-আপ বন্ধ করা, এবং স্টকহোম অনুসন্ধান করা।
- সক্রিয় পেজ একটি কাঠামোবদ্ধ Pydantic স্কিমা দিয়ে পরিদর্শন করে লিস্টিং শিরোনাম, রাত্রিকালীন দাম, রেটিং, এবং URL নির্যাস করা হয়।
- পাইথন লজিক নির্যাস করা লিস্টিংগুলো তুলনা করে সবচেয়ে সস্তা ফলাফল হাইলাইট করে।
এই পদ্ধতি Browser-Use এর নমনীয়, ভিশন ভিত্তিক যুক্তি ধরে রাখে যখন আপনি ব্রাউজার নিয়ন্ত্রণ নির্দিষ্ট করতে চান তখনও তা প্রদান করে।
মূল বিষয় এবং সর্বোত্তম চর্চা
কখন এজেন্ট বনাম অভিনেতা ব্যবহার করবেন
| পরিস্থিতি |
এজেন্ট ব্যবহার করুন |
অভিনেতা ব্যবহার করুন |
| ডাইনামিক লেআউট |
হ্যাঁ, AI পেজ পরিবর্তনের সাথে মানিয়ে নিতে পারে |
না, ভঙ্গুর সিলেক্টর ভেঙে যেতে পারে |
| পরিচিত কাঠামো |
না, এজেন্ট সরাসরি নিয়ন্ত্রণের চেয়ে ধীর |
হ্যাঁ, দ্রুত এবং সঠিক |
| উপাদান পাওয়া |
হ্যাঁ, প্রাকৃতিক ভাষা ভাল কাজ করে |
না, সঠিক সিলেক্টর প্রয়োজন |
| টাইমিং নিয়ন্ত্রণ |
না, কম পূর্বানুমেয় |
হ্যাঁ, অপেক্ষা ও পুনরায় চেষ্টা সম্পূর্ণ নিয়ন্ত্রণ |
| জটিল ওয়ার্কফ্লো |
হ্যাঁ, অপ্রত্যাশিত UI অবস্থাসমূহ পরিচালনা করে |
না, স্পষ্ট শাখাকরণ প্রয়োজন |
Browser-Use সর্বোত্তম চর্চা
- অন্বেষণ ও ডাইনামিক নেভিগেশনের জন্য এজেন্ট দিয়ে শুরু করুন।
- ইন্টারঅ্যাকশন পূর্বানুমেয় হলে সরাসরি পেজ নিয়ন্ত্রণে স্যুইচ করুন।
- কাঠামোবদ্ধ আউটপুট মডেল ব্যবহার করুন যাতে নির্যাসকৃত ডেটা যাচাইযোগ্য ও টাইপ-নিরাপদ হয়।
- দৃশ্যমান UI পরিবর্তনগুলি ঘটানোর পর কৌশলগতভাবে বিলম্ব যুক্ত করুন।
- ব্যর্থতা সহজে ডিবাগ করার জন্য পুনরাবৃত্তির সময় স্ক্রিনশট নিন।
- ওয়েবসাইট পরিবর্তনশীল হতে পারে এমন প্রত্যাশা করুন এবং পপ-আপ এবং লেআউট পরিবর্তনের জন্য রুখে দাঁড়ানোর কৌশল নকশা করুন।
- নমনীয়তা এবং নির্ভুলতা উভয়ই পেতে এজেন্ট এবং অভিনেতা প্যাটার্ন একত্রিত করুন।
বাস্তব বিশ্ব প্রয়োগসমূহ
- ভ্রমণ বুকিং এবং মূল্য পর্যবেক্ষণ
- ই-কমার্স মূল্য তুলনা এবং উপলব্ধতা যাচাই
- ডাইনামিক ওয়েবসাইট থেকে কাঠামোবদ্ধ নির্যাস
- ভিশন-সচেতন UI পরীক্ষা এবং যাচাই
- ওয়েবসাইট পর্যবেক্ষণ এবং সতর্কতা
- মাল্টি-স্টেপ ফ্লো জুড়ে বুদ্ধিমান ফর্ম পূরণ
অতিরিক্ত সম্পদ
বিবৃতি:
এই নথিটি AI অনুবাদ সেবা Co-op Translator ব্যবহার করে অনূদিত হয়েছে। আমরা যথাসাধ্য সঠিকতার জন্য চেষ্টা করি, তবে দয়া করে জানুন যে স্বয়ংক্রিয় অনুবাদগুলিতে ত্রুটি বা অসঙ্গতি থাকতে পারে। মূল নথি তার নিজস্ব ভাষায় কর্তৃত্বস্বরূপ বিবেচিত হওয়া উচিত। গুরুত্বপূর্ণ তথ্যের জন্য পেশাদার মানব অনুবাদের পরামর্শ দেওয়া হয়। অনুবাদের ব্যবহার থেকে উদ্ভূত যে কোনো ভুল বোঝাবুঝি বা ভুল ব্যাখ্যার জন্য আমরা দায়ী নই।