بناء وكلاء استخدام الحاسوب (CUA)
يمكن لوكلاء استخدام الحاسوب التفاعل مع المواقع الإلكترونية بنفس الطريقة التي يتفاعل بها الإنسان: من خلال فتح متصفح، وتفقد الصفحة، واتخاذ أفضل إجراء لاحق بناءً على ما يرونه. في هذا الدرس، ستقوم ببناء وكيل أتمتة متصفح يقوم بالبحث في Airbnb، واستخراج بيانات القوائم المنظمة، وتحديد أرخص إقامة في ستوكهولم.
يجمع الدرس بين Browser-Use للملاحة المدفوعة بالذكاء الاصطناعي، وPlaywright وبروتوكول أدوات تطوير Chrome (CDP) للتحكم في المتصفح، وAzure OpenAI للتمكين البصري والاستدلال، وPydantic للاستخراج المنظم.
المقدمة
سيغطي هذا الدرس:
- فهم متى يكون وكلاء استخدام الحاسوب أنسب من الأتمتة التي تعتمد فقط على واجهات برمجة التطبيقات (API)
- دمج Browser-Use مع Playwright وCDP لإدارة دورة حياة المتصفح بشكل موثوق
- استخدام Azure OpenAI مع الرؤية ومخرجات Pydantic المنظمة لاستخراج بيانات القوائم من صفحات الويب الديناميكية
- اتخاذ قرار متى تستخدم سير عمل أتمتة متصفح يركز على الوكيل، أو الممثل، أو مزيج منهما
أهداف التعلم
بعد إكمال هذا الدرس، ستكون قادراً على:
- تكوين Browser-Use مع Azure OpenAI وPlaywright
- بناء سير عمل أتمتة متصفح يتنقل عبر موقع ويب حقيقي ويتعامل مع عناصر واجهة المستخدم الديناميكية
- استخراج نتائج مكتوبة من محتوى الصفحة المرئي وتحويلها إلى منطق عمل لاحق
- الاختيار بين نمطي الوكيل والممثل بناءً على مدى توقع مهمة المتصفح
نموذج التعليمات البرمجية
يحتوي هذا الدرس على دفتر ملاحظات واحد تعليمي:
- 15-browser-user.ipynb: يطلق جلسة Chrome عبر CDP، يبحث في Airbnb عن قوائم في ستوكهولم، يستخرج الأسعار باستخدام رؤية Browser-Use، ويعيد الخيار الأرخص كبيانات منظمة.
المتطلبات المسبقة
- بايثون 3.12+
- نشر Azure OpenAI مهيأ في بيئتك
- تثبيت Chrome أو Chromium محلياً
- تثبيت تبعيات Playwright
- معرفة أساسية بـ async في بايثون
الإعداد
ثبت الحزم المستخدمة في دفتر الملاحظات:
pip install browser_use playwright python-dotenv
playwright install chromium
قم بضبط متغيرات بيئة Azure OpenAI التي يستخدمها دفتر الملاحظات:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# اختياري: الافتراضي هو أحدث إصدار من واجهة برمجة التطبيقات عند الحذف
AZURE_OPENAI_API_VERSION=...
نظرة عامة على البنية
يعرض دفتر الملاحظات سير عمل مزيج من أتمتة المتصفح:
- يبدأ Chrome مع تمكين CDP ليتمكن كل من Playwright وBrowser-Use من مشاركة نفس جلسة المتصفح.
- يتولى وكيل Browser-Use مهام الملاحة المفتوحة مثل فتح Airbnb، إغلاق النوافذ المنبثقة، والبحث عن ستوكهولم.
- يتم فحص الصفحة النشطة باستخدام مخطط Pydantic منظم لاستخراج عناوين القوائم، وأسعار الليالي، والتقييمات، وروابط URL.
- تقارن منطق بايثون القوائم المستخرجة وتبرز أرخص خيار.
يحافظ هذا النهج على المرونة في الاستدلال المبني على الرؤية التي يتميز بها Browser-Use مع منحك التحكم الحتمي في المتصفح عند الحاجة.
النقاط الرئيسية وأفضل الممارسات
متى تستخدم الوكيل مقابل الممثل
| السيناريو |
استخدام الوكيل |
استخدام الممثل |
| تخطيطات ديناميكية |
نعم، يمكن للذكاء الاصطناعي التكيف مع تغييرات الصفحة |
لا، المؤشرات الهشة قد تنكسر |
| الهيكل المعروف |
لا، الوكيل أبطأ من التحكم المباشر |
نعم، سريع ودقيق |
| العثور على العناصر |
نعم، اللغة الطبيعية تعمل جيداً |
لا، مطلوب مؤشرات دقيقة |
| التحكم في التوقيت |
لا، أقل قابلية للتنبؤ |
نعم، تحكم كامل في الانتظار والمحاولات |
| سير عمل معقد |
نعم، يتعامل مع حالات واجهة المستخدم غير المتوقعة |
لا، يتطلب تفرعات صريحة |
أفضل ممارسات Browser-Use
- ابدأ بوكيل للاستكشاف والملاحة الديناميكية.
- انتقل إلى التحكم المباشر بالصفحة عند تصبح التفاعلات متوقعة.
- استخدم نماذج المخرجات المنظمة لتحقيق صحة البيانات وسلامة الأنواع.
- أضف تأخيرات محسوبة بعد الإجراءات التي تؤدي إلى تغييرات مرئية في واجهة المستخدم.
- التقط لقطات شاشة أثناء التطوير ليسهل تتبع الأخطاء.
- توقع تغييرات المواقع وصمم استراتيجيات بديلة للنوافذ المنبثقة وتغييرات التخطيط.
- امزج بين نمطي الوكيل والممثل للحصول على المرونة والدقة معاً.
التطبيقات في العالم الحقيقي
- حجز السفر ومراقبة الأسعار
- مقارنة الأسعار والتوفر في التجارة الإلكترونية
- استخراج منظم من مواقع الويب الديناميكية
- اختبار واجهات المستخدم مع الوعي البصري والتحقق منها
- مراقبة المواقع وإرسال التنبيهات
- ملء النماذج الذكي عبر تدفقات متعددة الخطوات
مصادر إضافية
إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة الآلية Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية المصدر المعتمد. بالنسبة للمعلومات الحرجة، يُنصح بالترجمة المهنية البشرية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة ناتجة عن استخدام هذه الترجمة.