संगणक वापर एजंट्स (CUA) तयार करणे
संगणक वापर एजंट्स वेबसाइट्सशी तशीच संवाद साधू शकतात जशी एखादा माणूस करतो: ब्राउझर उघडून, पृष्ठ तपासून, आणि दिसणाऱ्या गोष्टींपासून पुढील सर्वोत्तम क्रिया घेऊन. या धड्यात, तुम्ही एक ब्राउझर ऑटोमेशन एजंट तयार कराल जो Airbnb शोधतो, संरचित सूचीबद्ध डेटा काढतो आणि स्टॉकहोममधील सर्वात स्वस्त राहण्याची ठिकाणे ओळखतो.
हा धडा Browser-Use वापरून AI-चालित नेव्हिगेशन, Playwright आणि Chrome DevTools Protocol (CDP) द्वारे ब्राउझर नियंत्रण, Azure OpenAI दृश्य-सक्षम विवेक आणि Pydantic द्वारे संरचित काढण्याचे संयोजन करतो.
परिचय
हा धडा पुढील विषय समजावून सांगेल:
- संगणक वापर एजंट्स केव्हा API-फक्त ऑटोमेशनपेक्षा चांगले असतात हे समजून घेणे
- Browser-Use सह Playwright आणि CDP यांचे संयोजन करून विश्वासार्ह ब्राउझर जीवनचक्र व्यवस्थापन करणे
- डायनॅमिक वेब पानांवरून सूचीबद्ध डेटा काढण्यासाठी Azure OpenAI दृश्य आणि संरचित Pydantic आउटपुट वापरणे
- एजंट-प्रथम, अभिनेता-प्रथम किंवा संकरित ब्राउझर ऑटोमेशन कार्यप्रवाह केव्हा वापरायचा ते ठरवणे
शिकण्याचे उद्दिष्टे
हा धडा पूर्ण केल्यानंतर, तुम्हाला कसे करायचे हे माहित असेल:
- Azure OpenAI आणि Playwright सह Browser-Use कॉन्फिगर करणे
- वास्तविक वेबसाइटवर नेव्हिगेट करणारा आणि डायनॅमिक UI घटक हाताळणारा ब्राउझर ऑटोमेशन कार्यप्रवाह तयार करणे
- दृश्य पानातील सामग्रीमधून प्रकारबद्ध निकाल काढणे आणि त्यांना पुढील व्यावसायिक लॉजिकमध्ये रूपांतरित करणे
- ब्राउझर काम किती पूर्वानुमानित आहे यावरून एजंट आणि अभिनेता नमुन्यांमधून निवड करणे
कोड नमुना
हा धडा एक नोटबुक ट्युटोरियल समाविष्ट करतो:
- 15-browser-user.ipynb: CDP द्वारे Chrome सत्र सुरू करतो, Airbnb वर स्टॉकहोम सूची शोधतो, Browser-Use दृष्टिकोन वापरून किमती काढतो आणि सर्वात स्वस्त पर्याय संरचित डेटाच्या रूपात परत करतो.
पूर्वआवश्यकता
- Python 3.12+
- Azure OpenAI डिप्लॉयमेंट तुमच्या पर्यावरणात कॉन्फिगर केलेले
- स्थानिकरित्या Chrome किंवा Chromium स्थापित
- Playwright अवलंबन स्थापित
- async Python ची मूलभूत परिचिती
सेटअप
नोटबुकमध्ये वापरल्या जाणार्या पॅकेजेस स्थापित करा:
pip install browser_use playwright python-dotenv
playwright install chromium
नोटबुक वापरत असलेल्या Azure OpenAI पर्यावरणातील चल सेट करा:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ऐच्छिक: वगळल्यास नवीनतम API आवृत्तीवर डिफॉल्ट ठेवले जाते
AZURE_OPENAI_API_VERSION=...
आर्किटेक्चर आढावा
हा नोटबुक संकरित ब्राउझर ऑटोमेशन कार्यप्रवाह दाखवतो:
- Chrome CDP सक्षम करून सुरू होते ज्यामुळे Playwright आणि Browser-Use एकाच ब्राउझर सत्रात सामायिक करू शकतात.
- Browser-Use एजंट खुलेपणाने नेव्हिगेशन कार्य सांभाळतो जसे की Airbnb उघडणे, पॉप-अप बंद करणे, आणि स्टॉकहोम शोधणे.
- सक्रिय पान संरचित Pydantic आकृतिबंध वापरून सूची शीर्षके, रात्रीची किम्मत, रेटिंग्स आणि URLs यांची काढणी करते.
- Python लॉजिक काढलेल्या सूचनांची तुलना करतो आणि सर्वात स्वस्त निकाल हायलाइट करतो.
हा पद्धत Browser-Use ची लवचिक, दृश्य-आधारित विवेकशक्ती टिकवून ठेवतो आणि आवश्यक तेव्हा निश्चित ब्राउझर नियंत्रण देखील प्रदान करतो.
मुख्य गोष्टी आणि सर्वोत्तम पद्धती
एजंट vs अभिनेता वापरण्याचे वेळ
| परिस्थिती |
एजंट वापरा |
अभिनेता वापरा |
| डायनॅमिक लेआउट |
होय, AI पृष्ठ बदलांसाठी अनुकूल होऊ शकतो |
नाही, नाजूक सलेक्टर्स तुटू शकतात |
| ज्ञात रचना |
नाही, एजंट थेट नियंत्रणापेक्षा हळू |
होय, वेगवान आणि अचूक |
| घटक शोधणे |
होय, नैसर्गिक भाषा चांगली कार्य करते |
नाही, अचूक सलेक्टर्स आवश्यक |
| टाइमिंग नियंत्रण |
नाही, कमी पूर्वानुमानित |
होय, प्रतीक्षा आणि पुन:प्रयत्नांवर संपूर्ण नियंत्रण |
| गुंतागुंतीचे कार्यप्रवाह |
होय, अनपेक्षित UI स्थिती हाताळतो |
नाही, स्पष्ट शाखाकरण आवश्यक |
Browser-Use सर्वोत्तम पद्धती
- अन्वेषणासाठी आणि डायनॅमिक नेव्हिगेशनसाठी एजंटसह प्रारंभ करा.
- संवाद पूर्वानुमानित होताच थेट पृष्ठ नियंत्रणाकडे स्विच करा.
- काढलेल्या डेटासाठी संरचित आउटपुट मॉडेल वापरा जेणेकरून ते मान्यताप्राप्त आणि प्रकारसुरक्षित राहील.
- दृश्यमान UI बदलांना प्रोत्साहन देणाऱ्या क्रियेनंतर धोरणात्मक विलंब जोडा.
- अयशस्वी झाले तर डिबग करणे सोपे जावे यासाठी पुनरावृत्ती करताना स्क्रीनशॉट घ्या.
- वेबसाइट्स बदलतात याची अपेक्षा ठेवा आणि पॉप-अप आणि लेआउट शिफ्टसाठी फॉलबॅक योजना तयार करा.
- लवचिकता आणि अचूकता दोन्ही मिळवण्यासाठी एजंट आणि अभिनेता पॅटर्न एकत्र करा.
वास्तविक जगातील अर्ज
- प्रवास Buchung आणि किंमत निरीक्षण
- ई-कॉमर्स किंमत तुलना आणि उपलब्धता तपासणी
- डायनॅमिक वेबसाइट्समधून संरचित काढणी
- दृश्य-ज्ञान असलेले UI चाचणी आणि पडताळणी
- वेबसाइट मॉनिटरिंग आणि अलर्ट
- बहु-टप्प्यांच्या प्रवाहांमध्ये बुद्धिमान फॉर्म भरून काढणे
अतिरिक्त संसाधने
अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून अनुवादित केला आहे. आम्ही अचूकतेसाठी प्रयत्न करतो, तरी कृपया लक्षात ठेवा की स्वयंचलित अनुवादांमध्ये चुका किंवा अगदी अचूक नसण्याची शक्यता असते. मूळ दस्तऐवज त्याच्या स्थानिक भाषेतच अधिकृत स्रोत मानला पाहिजे. महत्वाची माहिती असल्यास, व्यावसायिक मानवी भाषांतर शिफारसीय आहे. या भाषांतरणामुळे उद्भवलेल्या कोणत्याही गैरसमजुतींबद्दल किंवा चुकीच्या अर्थ लावण्याबद्दल आम्ही जबाबदार नाही.