ai-agents-for-beginners

کمپیوٹر یوز ایجنٹس (CUA) کی تعمیر

کمپیوٹر یوز ایجنٹس ویب سائٹس کے ساتھ اسی طرح بات چیت کر سکتے ہیں جیسے ایک شخص کرتا ہے: براؤزر کھول کر، صفحے کا جائزہ لے کر، اور جو وہ دیکھتا ہے اس میں سب سے بہتر اگلا عمل انجام دے کر۔ اس سبق میں، آپ ایک براؤزر آٹومیشن ایجنٹ بنائیں گے جو Airbnb پر تلاش کرے گا، منظم فہرست کے ڈیٹا کو نکالے گا، اور اسٹاک ہوم میں سب سے سستا قیام معلوم کرے گا۔

یہ سبق براؤزر-یوز کو AI پر مبنی نیویگیشن کے لئے، Playwright اور Chrome DevTools Protocol (CDP) کو براؤزر کنٹرول کے لئے، Azure OpenAI کو وژن سے فعال عقلی عمل کے لئے، اور Pydantic کو منظم استخراج کے لئے یکجا کرتا ہے۔

تعارف

یہ سبق شامل کرے گا:

سیکھنے کے مقاصد

اس سبق کو مکمل کرنے کے بعد، آپ جانیں گے کہ کیسے:

کوڈ کا نمونہ

اس سبق میں ایک نوٹ بک ٹیوٹوریل شامل ہے:

پیشگی ضروریات

سیٹ اپ

نوٹ بک میں استعمال ہونے والے پیکجز انسٹال کریں:

pip install browser_use playwright python-dotenv
playwright install chromium

نوٹ بک میں استعمال ہونے والے Azure OpenAI ماحول کے متغیرات سیٹ کریں:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# اختیاری: جب چھوڑ دیا جائے تو ڈیفالٹ طور پر تازہ ترین API ورژن استعمال ہوتا ہے
AZURE_OPENAI_API_VERSION=...

فن تعمیر کا جائزہ

نوٹ بک ایک ہائبرڈ براؤزر آٹومیشن ورک فلو کی وضاحت کرتا ہے:

  1. کروم CDP فعال کرکے شروع ہوتا ہے تاکہ Playwright اور Browser-Use دونوں ایک ہی براؤزر سیشن کو شیئر کر سکیں۔
  2. ایک Browser-Use ایجنٹ کھلے نیویگیشن کے کاموں کو ہینڈل کرتا ہے جیسے Airbnb کھولنا، پاپ اپ بند کرنا، اور اسٹاک ہوم تلاش کرنا۔
  3. فعال صفحہ کو منظم Pydantic اسکیمے کے ساتھ جانچا جاتا ہے تاکہ فہرست کے عنوانات، راتانہ قیمتیں، ریٹنگز، اور URLs نکالے جائیں۔
  4. پائتھن لاجک نکالی گئی فہرستوں کا موازنہ کرتا ہے اور سب سے سستا نتیجہ نمایاں کرتا ہے۔

یہ طریقہ Browser-Use کی لچکدار، وژن پر مبنی استدلال کی خصوصیات برقرار رکھتا ہے جبکہ جب آپ کو ضرورت ہو تو آپ کو متعین براؤزر کنٹرول بھی فراہم کرتا ہے۔

اہم نکات اور بہترین عملی طریقے

ایجنٹ بمقابلہ ایکٹر کب استعمال کریں

منظرنامہ ایجنٹ استعمال کریں ایکٹر استعمال کریں
متحرک لے آؤٹس جی ہاں، AI صفحے کی تبدیلیوں کے مطابق خود کو ڈھال سکتا ہے نہیں، نرم سلیکٹرز ٹوٹ سکتے ہیں
معلوم ساخت نہیں، ایجنٹ براہِ راست کنٹرول سے سست ہوتا ہے جی ہاں، تیز اور درست
عناصر تلاش کرنا جی ہاں، قدرتی زبان اچھے طریقے سے کام کرتی ہے نہیں، درست سلیکٹرز درکار ہیں
وقت کا کنٹرول نہیں، کم پیشگوئی کے قابل جی ہاں، انتظار اور دوبارہ کوششوں پر مکمل کنٹرول
پیچیدہ ورک فلو جی ہاں، غیر متوقع UI حالتوں کو ہینڈل کرتا ہے نہیں، واضح شاخ بندی درکار ہے

Browser-Use کی بہترین عملی طریقے

  1. تلاش اور متحرک نیویگیشن کے لیے ایجنٹ کے ساتھ شروع کریں۔
  2. جب تعامل پیش گوئی کے قابل ہو جائے تو براہِ راست صفحہ کنٹرول میں تبدیل کریں۔
  3. منظم آؤٹ پٹ ماڈلز استعمال کریں تاکہ نکالا گیا ڈیٹا توثیق شدہ اور ٹائپ-محفوظ ہو۔
  4. ایسے اقدامات کے بعد تاخیر شامل کریں جو مرئی UI تبدیلیاں چلاتے ہیں۔
  5. ناکامیوں کو ڈیبگ کرنا آسان بنانے کے لیے تکرار کے دوران اسکرین شاٹس لیں۔
  6. ویب سائٹس کے تبدیل ہونے کی توقع رکھیں اور پاپ اپس اور لے آؤٹ شفٹ کے لیے حفاظتی حکمت عملی بنائیں۔
  7. لچک اور درستی دونوں کے لیے ایجنٹ اور ایکٹر پیٹرنز کو مکس کریں۔

حقیقی دنیا کی ایپلیکیشنز

اضافی وسائل


ڈس کلیمر: اس دستاویز کا ترجمہ AI ترجمہ سروس Co-op Translator کے ذریعے کیا گیا ہے۔ اگرچہ ہم درستگی کے لیے کوشاں ہیں، براہ کرم آگاہ رہیں کہ خودکار تراجم میں غلطیاں یا عدم صحت ہو سکتی ہے۔ اصل دستاویز اپنی مادری زبان میں معتبر ماخذ مانی جانی چاہیے۔ اہم معلومات کے لیے پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے ہونے والی کسی بھی غلط فہمی یا غلط تشریح کی ذمہ داری ہم پر عائد نہیں ہوگی۔