कंप्यूटर उपयोग एजेंट्स (CUA) बनाना
कंप्यूटर उपयोग एजेंट वेबसाइटों के साथ उसी तरह बातचीत कर सकते हैं जैसे एक व्यक्ति करता है: ब्राउज़र खोलकर, पृष्ठ का निरीक्षण करके, और जो वे देखते हैं उससे अगला सबसे अच्छा कदम उठाकर। इस पाठ में, आप एक ब्राउज़र ऑटोमेशन एजेंट बनाएंगे जो Airbnb पर खोज करता है, संरचित लिस्टिंग डेटा निकालता है, और स्टॉकहोम में सबसे सस्ते ठहरने की जगह की पहचान करता है।
यह पाठ AI-चालित नेविगेशन के लिए Browser-Use, ब्राउज़र नियंत्रण के लिए Playwright और Chrome DevTools प्रोटोकॉल (CDP), विज़न-सक्षम तर्क के लिए Azure OpenAI, और संरचित निष्कर्षण के लिए Pydantic को संयोजित करता है।
परिचय
इस पाठ में शामिल हैं:
- यह समझना कि कब कंप्यूटर उपयोग एजेंट केवल API ऑटोमेशन की तुलना में बेहतर होते हैं
- Browser-Use को Playwright और CDP के साथ संयुक्त करके विश्वसनीय ब्राउज़र लाइफसायकल प्रबंधन करना
- गतिशील वेब पृष्ठों से लिस्टिंग डेटा निकालने के लिए Azure OpenAI विज़न और संरचित Pydantic आउटपुट का उपयोग करना
- एजेंट-प्रथम, अभिनेता-प्रथम, या हाइब्रिड ब्राउज़र ऑटोमेशन कार्यप्रवाह के उपयोग के निर्णय लेना
सीखने के लक्ष्य
इस पाठ को पूरा करने के बाद, आप जानेंगे कि कैसे:
- Azure OpenAI और Playwright के साथ Browser-Use कॉन्फ़िगर करें
- एक ब्राउज़र ऑटोमेशन कार्यप्रवाह बनाएं जो एक वास्तविक वेबसाइट नेविगेट करे और गतिशील UI तत्वों को संभाले
- दृश्यमान पृष्ठ सामग्री से टाइप किए गए परिणाम निकालें और उन्हें डाउनस्ट्रीम व्यावसायिक लॉजिक में बदलें
- एजेंट और अभिनेता पैटर्न के बीच चयन करें कि ब्राउज़र कार्य कितना पूर्वानुमेय है
कोड उदाहरण
इस पाठ में एक नोटबुक ट्यूटोरियल शामिल है:
- 15-browser-user.ipynb: CDP के माध्यम से एक क्रोम सत्र लॉन्च करता है, Airbnb पर स्टॉकहोम लिस्टिंग खोजता है, Browser-Use विज़न के साथ मूल्य निकालता है, और सबसे सस्ता विकल्प संरचित डेटा के रूप में लौटाता है।
आवश्यकताएँ
- Python 3.12+
- आपके पर्यावरण में Azure OpenAI तैनात होना चाहिए
- स्थानीय रूप से Chrome या Chromium स्थापित
- Playwright निर्भरताएं स्थापित
- सिंक्रनस Python की मूल समझ
सेटअप
नोटबुक में उपयोग किए जाने वाले पैकेज स्थापित करें:
pip install browser_use playwright python-dotenv
playwright install chromium
नोटबुक द्वारा उपयोग किए गए Azure OpenAI पर्यावरण चर सेट करें:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# वैकल्पिक: छोड़े जाने पर नवीनतम एपीआई संस्करण डिफ़ॉल्ट होता है
AZURE_OPENAI_API_VERSION=...
वास्तुकला अवलोकन
नोटबुक एक हाइब्रिड ब्राउज़र ऑटोमेशन कार्यप्रवाह दिखाती है:
- Chrome CDP सक्षम होकर शुरू होता है ताकि Playwright और Browser-Use दोनों एक ही ब्राउज़र सत्र साझा कर सकें।
- Browser-Use एजेंट ओपन-एंडेड नेविगेशन कार्य जैसे Airbnb खोलना, पॉप-अप बंद करना, और स्टॉकहोम के लिए खोज संभालता है।
- सक्रिय पृष्ठ को एक संरचित Pydantic स्कीमा के साथ निरीक्षण किया जाता है ताकि लिस्टिंग शीर्षक, प्रति रात मूल्य, रेटिंग और URLs निकाले जा सकें।
- Python लॉजिक निकाले गए लिस्टिंग की तुलना करता है और सबसे सस्ते परिणाम को उजागर करता है।
यह तरीका Browser-Use की लचीली, विजन-आधारित तर्क क्षमता को बनाए रखते हुए आपको आवश्यक होने पर मात्रात्मक ब्राउज़र नियंत्रण भी देता है।
मुख्य बातें और सर्वोत्तम प्रथाएँ
एजेंट बनाम अभिनेता कब उपयोग करें
| परिदृश्य |
एजेंट उपयोग करें |
अभिनेता उपयोग करें |
| गतिशील लेआउट |
हाँ, AI पृष्ठ परिवर्तनों के लिए अनुकूल हो सकता है |
नहीं, कमजोर सेलेक्टर्स टूट सकते हैं |
| ज्ञात संरचना |
नहीं, एजेंट प्रत्यक्ष नियंत्रण से धीमा होगा |
हाँ, तेज और सटीक |
| तत्व खोजना |
हाँ, प्राकृतिक भाषा अच्छी तरह काम करती है |
नहीं, सटीक सेलेक्टर्स आवश्यक हैं |
| समय नियंत्रण |
नहीं, कम पूर्वानुमेय |
हाँ, वेट और रिट्राई पर पूर्ण नियंत्रण |
| जटिल कार्यप्रवाह |
हाँ, अप्रत्याशित UI अवस्थाओं को संभालता है |
नहीं, स्पष्ट ब्रांचिंग आवश्यक है |
Browser-Use सर्वोत्तम प्रथाएँ
- अन्वेषण और गतिशील नेविगेशन के लिए एजेंट से शुरू करें।
- जब इंटरैक्शन पूर्वानुमेय हो जाए, तब प्रत्यक्ष पृष्ठ नियंत्रण पर स्विच करें।
- संरचित आउटपुट मॉडल का उपयोग करें ताकि निकाला गया डेटा मान्य और प्रकार-सुरक्षित हो।
- ऐसे कार्यों के बाद रणनीतिक रूप से विलंब जोड़ें जो दृश्यमान UI परिवर्तन ट्रिगर करते हैं।
- विफलताओं को डिबग करना आसान हो, इसलिए पुनरावृत्ति के दौरान स्क्रीनशॉट लें।
- वेबसाइटों के बदलने की उम्मीद करें और पॉप-अप एवं लेआउट शिफ्ट के लिए फालबैक रणनीति डिज़ाइन करें।
- लचीलापन और सटीकता दोनों के लिए एजेंट और अभिनेता पैटर्न को मिलाएं।
वास्तविक दुनिया के अनुप्रयोग
- यात्रा बुकिंग और मूल्य निगरानी
- ई-कॉमर्स मूल्य तुलना और उपलब्धता जांच
- गतिशील वेबसाइटों से संरचित निष्कर्षण
- विज़न-सक्षम UI परीक्षण और सत्यापन
- वेबसाइट मॉनिटरिंग और अलर्टिंग
- बहु-चरणी प्रवाह में बुद्धिमान फॉर्म भरना
अतिरिक्त संसाधन
अस्वीकरण:
इस दस्तावेज़ का अनुवाद एआई अनुवाद सेवा Co-op Translator का उपयोग करके किया गया है। यद्यपि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या असटीकताएं हो सकती हैं। मूल भाषा में मूल दस्तावेज़ को अधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।