ai-agents-for-beginners

ساخت عامل‌های استفاده از رایانه (CUA)

عامل‌های استفاده از رایانه می‌توانند با وب‌سایت‌ها همانطور که یک انسان انجام می‌دهد تعامل کنند: با باز کردن مرورگر، بررسی صفحه و انجام بهترین اقدام بعدی بر اساس آنچه می‌بینند. در این درس، شما یک عامل خودکارسازی مرورگر می‌سازید که در Airbnb جستجو می‌کند، داده‌های ساخت‌یافتهٔ لیست‌ها را استخراج می‌کند و ارزان‌ترین اقامت در استکهلم را شناسایی می‌کند.

این درس ترکیبی است از Browser-Use برای ناوبری مبتنی بر هوش مصنوعی، Playwright و پروتکل Chrome DevTools (CDP) برای کنترل مرورگر، Azure OpenAI برای استدلال مبتنی بر بینایی و Pydantic برای استخراج ساخت‌یافته.

مقدمه

این درس پوشش می‌دهد:

اهداف یادگیری

بعد از تکمیل این درس شما خواهید دانست چگونه:

نمونه کد

این درس شامل یک دفترچه راهنمای آموزشی است:

پیش‌نیازها

راه‌اندازی

بسته‌های استفاده شده در دفترچه را نصب کنید:

pip install browser_use playwright python-dotenv
playwright install chromium

متغیرهای محیطی Azure OpenAI که توسط دفترچه استفاده می‌شوند را تنظیم کنید:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# اختیاری: در صورت حذف، به طور پیش‌فرض به جدیدترین نسخه API تنظیم می‌شود
AZURE_OPENAI_API_VERSION=...

نمای کلی معماری

دفترچه یک جریان کاری خودکار مرورگر ترکیبی را نشان می‌دهد:

  1. کروم با CDP فعال شده است تا هم Playwright و هم Browser-Use بتوانند جلسه مرورگر یکسانی را به اشتراک بگذارند.
  2. یک عامل Browser-Use وظایف ناوبری آزاد مانند باز کردن Airbnb، رد کردن پنجره‌های پاپ‌آپ و جستجو برای استکهلم را مدیریت می‌کند.
  3. صفحه فعال با یک اسکیمای ساخت‌یافتهٔ Pydantic برای استخراج عناوین لیست‌ها، قیمت‌های شبانه، امتیازها، و لینک‌ها بررسی می‌شود.
  4. منطق پایتون لیست‌های استخراج شده را مقایسه کرده و ارزان‌ترین نتیجه را برجسته می‌کند.

این رویکرد انعطاف‌پذیری و استدلال مبتنی بر بینایی که Browser-Use در آن مهارت دارد را حفظ می‌کند و در عین حال کنترل قطعی مرورگر را زمانی که لازم است به شما می‌دهد.

نکات کلیدی و بهترین شیوه‌ها

چه زمانی از عامل استفاده کنیم و چه زمانی از بازیگر

سناریو استفاده از عامل استفاده از بازیگر
چیدمان‌های پویا بله، هوش مصنوعی می‌تواند به تغییرات صفحه سازگار شود خیر، انتخاب‌گرهای شکننده ممکن است خراب شوند
ساختار شناخته شده خیر، عامل کندتر از کنترل مستقیم است بله، سریع و دقیق است
پیدا کردن عناصر بله، زبان طبیعی به خوبی عمل می‌کند خیر، انتخاب‌گرهای دقیق لازم است
کنترل زمان‌بندی خیر، پیش‌بینی‌ناپذیرتر است بله، کنترل کامل روی انتظارها و تلاش‌های مجدد
گردش‌های کاری پیچیده بله، وضعیت‌های غیرمنتظره UI را مدیریت می‌کند خیر، نیاز به شاخه‌بندی صریح دارد

بهترین شیوه‌های Browser-Use

  1. با یک عامل برای کاوش و ناوبری پویا شروع کنید.
  2. وقتی تعامل قابل پیش‌بینی شد به کنترل مستقیم صفحه تغییر وضعیت دهید.
  3. از مدل‌های خروجی ساخت‌یافته استفاده کنید تا داده‌های استخراج شده اعتبارسنجی شده و نوع‌ايمن باشند.
  4. به طور استراتژیک بعد از اقداماتی که باعث تغییرات قابل مشاهده UI می‌شوند، تأخیر اضافه کنید.
  5. هنگام تکرار گرفتن اسکرین‌شات کنید تا اشکالات راحت‌تر رفع شوند.
  6. انتظار تغییر وب‌سایت‌ها را داشته باشید و استراتژی‌های پشتیبان برای پنجره‌های پاپ‌آپ و جابجایی چیدمان طراحی کنید.
  7. الگوهای عامل و بازیگر را ترکیب کنید تا هم انعطاف‌پذیری و هم دقت را داشته باشید.

کاربردهای دنیای واقعی

منابع اضافی


سلب مسئولیت:
این سند با استفاده از سرویس ترجمه ماشینی Co-op Translator ترجمه شده است. در حالی که ما در تلاش برای دقت هستیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است حاوی اشتباهات یا نادرستی‌هایی باشند. سند اصلی به زبان مادری خود باید منبع معتبر در نظر گرفته شود. برای اطلاعات حیاتی، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما مسئول هیچ گونه سوءتفاهم یا تفسیر نادرست ناشی از استفاده از این ترجمه نمی‌باشیم.