ai-agents-for-beginners

بناء وكلاء استخدام الحاسوب (CUA)

يمكن لوكلاء استخدام الحاسوب التفاعل مع المواقع الإلكترونية بنفس الطريقة التي يتفاعل بها الإنسان: من خلال فتح متصفح، وتفقد الصفحة، واتخاذ أفضل إجراء لاحق بناءً على ما يرونه. في هذا الدرس، ستقوم ببناء وكيل أتمتة متصفح يقوم بالبحث في Airbnb، واستخراج بيانات القوائم المنظمة، وتحديد أرخص إقامة في ستوكهولم.

يجمع الدرس بين Browser-Use للملاحة المدفوعة بالذكاء الاصطناعي، وPlaywright وبروتوكول أدوات تطوير Chrome (CDP) للتحكم في المتصفح، وAzure OpenAI للتمكين البصري والاستدلال، وPydantic للاستخراج المنظم.

المقدمة

سيغطي هذا الدرس:

أهداف التعلم

بعد إكمال هذا الدرس، ستكون قادراً على:

نموذج التعليمات البرمجية

يحتوي هذا الدرس على دفتر ملاحظات واحد تعليمي:

المتطلبات المسبقة

الإعداد

ثبت الحزم المستخدمة في دفتر الملاحظات:

pip install browser_use playwright python-dotenv
playwright install chromium

قم بضبط متغيرات بيئة Azure OpenAI التي يستخدمها دفتر الملاحظات:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# اختياري: الافتراضي هو أحدث إصدار من واجهة برمجة التطبيقات عند الحذف
AZURE_OPENAI_API_VERSION=...

نظرة عامة على البنية

يعرض دفتر الملاحظات سير عمل مزيج من أتمتة المتصفح:

  1. يبدأ Chrome مع تمكين CDP ليتمكن كل من Playwright وBrowser-Use من مشاركة نفس جلسة المتصفح.
  2. يتولى وكيل Browser-Use مهام الملاحة المفتوحة مثل فتح Airbnb، إغلاق النوافذ المنبثقة، والبحث عن ستوكهولم.
  3. يتم فحص الصفحة النشطة باستخدام مخطط Pydantic منظم لاستخراج عناوين القوائم، وأسعار الليالي، والتقييمات، وروابط URL.
  4. تقارن منطق بايثون القوائم المستخرجة وتبرز أرخص خيار.

يحافظ هذا النهج على المرونة في الاستدلال المبني على الرؤية التي يتميز بها Browser-Use مع منحك التحكم الحتمي في المتصفح عند الحاجة.

النقاط الرئيسية وأفضل الممارسات

متى تستخدم الوكيل مقابل الممثل

السيناريو استخدام الوكيل استخدام الممثل
تخطيطات ديناميكية نعم، يمكن للذكاء الاصطناعي التكيف مع تغييرات الصفحة لا، المؤشرات الهشة قد تنكسر
الهيكل المعروف لا، الوكيل أبطأ من التحكم المباشر نعم، سريع ودقيق
العثور على العناصر نعم، اللغة الطبيعية تعمل جيداً لا، مطلوب مؤشرات دقيقة
التحكم في التوقيت لا، أقل قابلية للتنبؤ نعم، تحكم كامل في الانتظار والمحاولات
سير عمل معقد نعم، يتعامل مع حالات واجهة المستخدم غير المتوقعة لا، يتطلب تفرعات صريحة

أفضل ممارسات Browser-Use

  1. ابدأ بوكيل للاستكشاف والملاحة الديناميكية.
  2. انتقل إلى التحكم المباشر بالصفحة عند تصبح التفاعلات متوقعة.
  3. استخدم نماذج المخرجات المنظمة لتحقيق صحة البيانات وسلامة الأنواع.
  4. أضف تأخيرات محسوبة بعد الإجراءات التي تؤدي إلى تغييرات مرئية في واجهة المستخدم.
  5. التقط لقطات شاشة أثناء التطوير ليسهل تتبع الأخطاء.
  6. توقع تغييرات المواقع وصمم استراتيجيات بديلة للنوافذ المنبثقة وتغييرات التخطيط.
  7. امزج بين نمطي الوكيل والممثل للحصول على المرونة والدقة معاً.

التطبيقات في العالم الحقيقي

مصادر إضافية


إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر المعتمد. بالنسبة للمعلومات الحرجة، يُنصح بالترجمة المهنية البشرية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة ناتجة عن استخدام هذه الترجمة.