کمپیوٹر یوز ایجنٹس (CUA) کی تعمیر
کمپیوٹر یوز ایجنٹس ویب سائٹس کے ساتھ اسی طرح بات چیت کر سکتے ہیں جیسے ایک شخص کرتا ہے: براؤزر کھول کر، صفحے کا جائزہ لے کر، اور جو وہ دیکھتا ہے اس میں سب سے بہتر اگلا عمل انجام دے کر۔ اس سبق میں، آپ ایک براؤزر آٹومیشن ایجنٹ بنائیں گے جو Airbnb پر تلاش کرے گا، منظم فہرست کے ڈیٹا کو نکالے گا، اور اسٹاک ہوم میں سب سے سستا قیام معلوم کرے گا۔
یہ سبق براؤزر-یوز کو AI پر مبنی نیویگیشن کے لئے، Playwright اور Chrome DevTools Protocol (CDP) کو براؤزر کنٹرول کے لئے، Azure OpenAI کو وژن سے فعال عقلی عمل کے لئے، اور Pydantic کو منظم استخراج کے لئے یکجا کرتا ہے۔
تعارف
یہ سبق شامل کرے گا:
- یہ سمجھنا کہ کمپیوٹر یوز ایجنٹس کب API-صرف آٹومیشن سے بہتر انتخاب ہوتے ہیں
- قابل اعتماد براؤزر لائف سائیکل مینجمنٹ کے لیے Browser-Use کو Playwright اور CDP کے ساتھ ملانا
- Azure OpenAI وژن اور منظم Pydantic آؤٹ پٹ کا استعمال کرتے ہوئے ڈائنامک ویب صفحات سے فہرست کے ڈیٹا کا استخراج
- یہ فیصلہ کرنا کہ کب ایجنٹ-پہلا، ایکٹر-پہلا، یا ہائبرڈ براؤزر آٹومیشن ورک فلو استعمال کرنا ہے
سیکھنے کے مقاصد
اس سبق کو مکمل کرنے کے بعد، آپ جانیں گے کہ کیسے:
- Browser-Use کو Azure OpenAI اور Playwright کے ساتھ ترتیب دیں
- ایک براؤزر آٹومیشن ورک فلو بنائیں جو ایک حقیقی ویب سائٹ پر نیویگیٹ کرے اور ڈائنامک UI عناصر کو ہینڈل کرے
- مرئی صفحہ کے مواد سے ٹائپ کیے گئے نتائج نکالیں اور انہیں کاروباری منطق میں تبدیل کریں
- ایجنٹ اور ایکٹر پیٹرنز میں انتخاب کریں اس بات کی بنیاد پر کہ براؤزر کام کتنا پیش گوئی کے قابل ہے
کوڈ کا نمونہ
اس سبق میں ایک نوٹ بک ٹیوٹوریل شامل ہے:
- 15-browser-user.ipynb: CDP کے ذریعے کروم سیشن لانچ کرتا ہے، Airbnb پر اسٹاک ہوم کی فہرستیں تلاش کرتا ہے، Browser-Use وژن کے ساتھ قیمتیں نکالتا ہے، اور سب سے سستی آپشن کو منظم ڈیٹا کے طور پر واپس کرتا ہے۔
پیشگی ضروریات
- Python 3.12+
- آپ کے ماحول میں Azure OpenAI کی تنصیب
- کروم یا کرومیم مقامی طور پر انسٹالڈ
- Playwright کی انحصاریات انسٹالڈ
- async Python سے بنیادی واقفیت
سیٹ اپ
نوٹ بک میں استعمال ہونے والے پیکجز انسٹال کریں:
pip install browser_use playwright python-dotenv
playwright install chromium
نوٹ بک میں استعمال ہونے والے Azure OpenAI ماحول کے متغیرات سیٹ کریں:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# اختیاری: جب چھوڑ دیا جائے تو ڈیفالٹ طور پر تازہ ترین API ورژن استعمال ہوتا ہے
AZURE_OPENAI_API_VERSION=...
فن تعمیر کا جائزہ
نوٹ بک ایک ہائبرڈ براؤزر آٹومیشن ورک فلو کی وضاحت کرتا ہے:
- کروم CDP فعال کرکے شروع ہوتا ہے تاکہ Playwright اور Browser-Use دونوں ایک ہی براؤزر سیشن کو شیئر کر سکیں۔
- ایک Browser-Use ایجنٹ کھلے نیویگیشن کے کاموں کو ہینڈل کرتا ہے جیسے Airbnb کھولنا، پاپ اپ بند کرنا، اور اسٹاک ہوم تلاش کرنا۔
- فعال صفحہ کو منظم Pydantic اسکیمے کے ساتھ جانچا جاتا ہے تاکہ فہرست کے عنوانات، راتانہ قیمتیں، ریٹنگز، اور URLs نکالے جائیں۔
- پائتھن لاجک نکالی گئی فہرستوں کا موازنہ کرتا ہے اور سب سے سستا نتیجہ نمایاں کرتا ہے۔
یہ طریقہ Browser-Use کی لچکدار، وژن پر مبنی استدلال کی خصوصیات برقرار رکھتا ہے جبکہ جب آپ کو ضرورت ہو تو آپ کو متعین براؤزر کنٹرول بھی فراہم کرتا ہے۔
اہم نکات اور بہترین عملی طریقے
ایجنٹ بمقابلہ ایکٹر کب استعمال کریں
| منظرنامہ |
ایجنٹ استعمال کریں |
ایکٹر استعمال کریں |
| متحرک لے آؤٹس |
جی ہاں، AI صفحے کی تبدیلیوں کے مطابق خود کو ڈھال سکتا ہے |
نہیں، نرم سلیکٹرز ٹوٹ سکتے ہیں |
| معلوم ساخت |
نہیں، ایجنٹ براہِ راست کنٹرول سے سست ہوتا ہے |
جی ہاں، تیز اور درست |
| عناصر تلاش کرنا |
جی ہاں، قدرتی زبان اچھے طریقے سے کام کرتی ہے |
نہیں، درست سلیکٹرز درکار ہیں |
| وقت کا کنٹرول |
نہیں، کم پیشگوئی کے قابل |
جی ہاں، انتظار اور دوبارہ کوششوں پر مکمل کنٹرول |
| پیچیدہ ورک فلو |
جی ہاں، غیر متوقع UI حالتوں کو ہینڈل کرتا ہے |
نہیں، واضح شاخ بندی درکار ہے |
Browser-Use کی بہترین عملی طریقے
- تلاش اور متحرک نیویگیشن کے لیے ایجنٹ کے ساتھ شروع کریں۔
- جب تعامل پیش گوئی کے قابل ہو جائے تو براہِ راست صفحہ کنٹرول میں تبدیل کریں۔
- منظم آؤٹ پٹ ماڈلز استعمال کریں تاکہ نکالا گیا ڈیٹا توثیق شدہ اور ٹائپ-محفوظ ہو۔
- ایسے اقدامات کے بعد تاخیر شامل کریں جو مرئی UI تبدیلیاں چلاتے ہیں۔
- ناکامیوں کو ڈیبگ کرنا آسان بنانے کے لیے تکرار کے دوران اسکرین شاٹس لیں۔
- ویب سائٹس کے تبدیل ہونے کی توقع رکھیں اور پاپ اپس اور لے آؤٹ شفٹ کے لیے حفاظتی حکمت عملی بنائیں۔
- لچک اور درستی دونوں کے لیے ایجنٹ اور ایکٹر پیٹرنز کو مکس کریں۔
حقیقی دنیا کی ایپلیکیشنز
- سفر کی بکنگ اور قیمت کی نگرانی
- ای-کامرس قیمت موازنہ اور دستیابی چیک
- متحرک ویب سائٹس سے منظم استخراج
- وژن آگاہ UI ٹیسٹنگ اور تصدیق
- ویب سائٹ کی نگرانی اور الرٹ
- کثیر مرحلہ بہاؤ میں ذہین فارم بھرنا
اضافی وسائل
ڈس کلیمر:
اس دستاویز کا ترجمہ AI ترجمہ سروس Co-op Translator کے ذریعے کیا گیا ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم آگاہ رہیں کہ خودکار تراجم میں غلطیاں یا عدم صحت ہو سکتی ہے۔ اصل دستاویز اپنی مادری زبان میں معتبر ماخذ مانی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے ہونے والی کسی بھی غلط فہمی یا غلط تشریح کی ذمہ داری ہم پر عائد نہیں ہوگی۔