ai-agents-for-beginners

कंप्यूटर उपयोग एजेंट्स (CUA) बनाना

कंप्यूटर उपयोग एजेंट वेबसाइटों के साथ उसी तरह बातचीत कर सकते हैं जैसे एक व्यक्ति करता है: ब्राउज़र खोलकर, पृष्ठ का निरीक्षण करके, और जो वे देखते हैं उससे अगला सबसे अच्छा कदम उठाकर। इस पाठ में, आप एक ब्राउज़र ऑटोमेशन एजेंट बनाएंगे जो Airbnb पर खोज करता है, संरचित लिस्टिंग डेटा निकालता है, और स्टॉकहोम में सबसे सस्ते ठहरने की जगह की पहचान करता है।

यह पाठ AI-चालित नेविगेशन के लिए Browser-Use, ब्राउज़र नियंत्रण के लिए Playwright और Chrome DevTools प्रोटोकॉल (CDP), विज़न-सक्षम तर्क के लिए Azure OpenAI, और संरचित निष्कर्षण के लिए Pydantic को संयोजित करता है।

परिचय

इस पाठ में शामिल हैं:

सीखने के लक्ष्य

इस पाठ को पूरा करने के बाद, आप जानेंगे कि कैसे:

कोड उदाहरण

इस पाठ में एक नोटबुक ट्यूटोरियल शामिल है:

आवश्यकताएँ

सेटअप

नोटबुक में उपयोग किए जाने वाले पैकेज स्थापित करें:

pip install browser_use playwright python-dotenv
playwright install chromium

नोटबुक द्वारा उपयोग किए गए Azure OpenAI पर्यावरण चर सेट करें:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# वैकल्पिक: छोड़े जाने पर नवीनतम एपीआई संस्करण डिफ़ॉल्ट होता है
AZURE_OPENAI_API_VERSION=...

वास्तुकला अवलोकन

नोटबुक एक हाइब्रिड ब्राउज़र ऑटोमेशन कार्यप्रवाह दिखाती है:

  1. Chrome CDP सक्षम होकर शुरू होता है ताकि Playwright और Browser-Use दोनों एक ही ब्राउज़र सत्र साझा कर सकें।
  2. Browser-Use एजेंट ओपन-एंडेड नेविगेशन कार्य जैसे Airbnb खोलना, पॉप-अप बंद करना, और स्टॉकहोम के लिए खोज संभालता है।
  3. सक्रिय पृष्ठ को एक संरचित Pydantic स्कीमा के साथ निरीक्षण किया जाता है ताकि लिस्टिंग शीर्षक, प्रति रात मूल्य, रेटिंग और URLs निकाले जा सकें।
  4. Python लॉजिक निकाले गए लिस्टिंग की तुलना करता है और सबसे सस्ते परिणाम को उजागर करता है।

यह तरीका Browser-Use की लचीली, विजन-आधारित तर्क क्षमता को बनाए रखते हुए आपको आवश्यक होने पर मात्रात्मक ब्राउज़र नियंत्रण भी देता है।

मुख्य बातें और सर्वोत्तम प्रथाएँ

एजेंट बनाम अभिनेता कब उपयोग करें

परिदृश्य एजेंट उपयोग करें अभिनेता उपयोग करें
गतिशील लेआउट हाँ, AI पृष्ठ परिवर्तनों के लिए अनुकूल हो सकता है नहीं, कमजोर सेलेक्टर्स टूट सकते हैं
ज्ञात संरचना नहीं, एजेंट प्रत्यक्ष नियंत्रण से धीमा होगा हाँ, तेज और सटीक
तत्व खोजना हाँ, प्राकृतिक भाषा अच्छी तरह काम करती है नहीं, सटीक सेलेक्टर्स आवश्यक हैं
समय नियंत्रण नहीं, कम पूर्वानुमेय हाँ, वेट और रिट्राई पर पूर्ण नियंत्रण
जटिल कार्यप्रवाह हाँ, अप्रत्याशित UI अवस्थाओं को संभालता है नहीं, स्पष्ट ब्रांचिंग आवश्यक है

Browser-Use सर्वोत्तम प्रथाएँ

  1. अन्वेषण और गतिशील नेविगेशन के लिए एजेंट से शुरू करें।
  2. जब इंटरैक्शन पूर्वानुमेय हो जाए, तब प्रत्यक्ष पृष्ठ नियंत्रण पर स्विच करें।
  3. संरचित आउटपुट मॉडल का उपयोग करें ताकि निकाला गया डेटा मान्य और प्रकार-सुरक्षित हो।
  4. ऐसे कार्यों के बाद रणनीतिक रूप से विलंब जोड़ें जो दृश्यमान UI परिवर्तन ट्रिगर करते हैं।
  5. विफलताओं को डिबग करना आसान हो, इसलिए पुनरावृत्ति के दौरान स्क्रीनशॉट लें।
  6. वेबसाइटों के बदलने की उम्मीद करें और पॉप-अप एवं लेआउट शिफ्ट के लिए फालबैक रणनीति डिज़ाइन करें।
  7. लचीलापन और सटीकता दोनों के लिए एजेंट और अभिनेता पैटर्न को मिलाएं।

वास्तविक दुनिया के अनुप्रयोग

अतिरिक्त संसाधन


अस्वीकरण:
इस दस्तावेज़ का अनुवाद एआई अनुवाद सेवा Co-op Translator का उपयोग करके किया गया है। यद्यपि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या असटीकताएं हो सकती हैं। मूल भाषा में मूल दस्तावेज़ को अधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।