कम्प्युटर प्रयोग एजेन्टहरू (CUA) निर्माण
कम्प्युटर प्रयोग एजेन्टहरूले वेबसाइटहरूसँग त्यहि तरिकाले अन्तरक्रिया गर्न सक्छन् जस्तै मान्छेले गर्छ: ब्राउजर खोल्दै, पृष्ठ निरीक्षण गर्दै, र देखिएका कुराबाट सबैभन्दा राम्रो अर्को कार्य लिँदै। यस पाठमा, तपाईं एक ब्राउजर स्वचालन एजेन्ट निर्माण गर्नुहुनेछ जुन Airbnb खोज्छ, संरचित सूचीकरण डेटा निकाल्छ, र स्टकहोममा सबैभन्दा सस्तो बस्ने ठाउँ पहिचान गर्छ।
पाठले AI-चालित नेभिगेसनका लागि Browser-Use, ब्राउजर नियन्त्रणका लागि Playwright र Chrome DevTools Protocol (CDP), दृश्य सक्षम तर्कका लागि Azure OpenAI, र संरचित निक्षेपका लागि Pydantic संयोजन गर्दछ।
परिचय
यस पाठले समेट्नेछ:
- कम्प्युटर प्रयोग एजेन्टहरू API-केवल स्वचालनभन्दा राम्रो कहिले हुन्छ बुझ्ने
- भरपर्दो ब्राउजर जीवनचक्र व्यवस्थापनका लागि Browser-Use सँग Playwright र CDP को संयोजन
- गतिशील वेब पृष्ठहरूबाट सूचीकरण डेटा निकाल्न Azure OpenAI दृश्य र संरचित Pydantic नतिजा प्रयोग गर्ने
- एजेन्ट-प्रथम, अभिनेता-प्रथम, वा हाइब्रिड ब्राउजर स्वचालन कार्यप्रवाह कहिले प्रयोग गर्ने निर्णय गर्ने
सिकाइ लक्ष्यहरू
यस पाठ सम्पन्न गरेपछि, तपाईं जान्नु हुनेछ कसरी:
- Azure OpenAI र Playwright सहित Browser-Use कन्फिगर गर्ने
- वास्तविक वेबसाइटमा नेभिगेट गर्ने र गतिशील UI तत्वहरूको व्यवस्थापन गर्ने ब्राउजर स्वचालन कार्यप्रवाह निर्माण गर्ने
- देखिने पृष्ठ सामग्रीबाट टाइप गरिएका नतिजा निकालेर तिनीहरूलाई व्यावसायिक तर्कमा परिणत गर्ने
- ब्राउजर कार्य कत्तिको अनुमानित छ भन्ने आधारमा एजेन्ट र अभिनेता ढाँचाहरू बीच छनोट गर्ने
कोड नमूना
यस पाठमा एउटा नोटबुक ट्युटोरियल समावेश छ:
- 15-browser-user.ipynb: CDP मार्फत Chrome सत्र सुरु गर्छ, Airbnb मा स्टकहोम सूचीहरू खोज्छ, Browser-Use दृश्यबाट मूल्यहरू निकाल्छ, र सबैभन्दा सस्तो विकल्प संरचित डेटा रूपमा फर्काउँछ।
पूर्व शर्तहरू
- Python 3.12+
- तपाईंको वातावरणमा Azure OpenAI परिनियोजन कन्फिगर गरिएको
- स्थानीय रूपमा Chrome वा Chromium स्थापना गरिएको
- Playwright निर्भरताहरू स्थापना गरिएको
- async Python मा आधारभूत परिचय
सेटअप
नोटबुकमा प्रयोग भएका प्याकेजहरू स्थापना गर्नुहोस्:
pip install browser_use playwright python-dotenv
playwright install chromium
नोटबुकले प्रयोग गर्ने Azure OpenAI वातावरण चरहरू सेट गर्नुहोस्:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# वैकल्पिक: छुट्याइएको बेला नयाँतम API संस्करणमा डिफल्ट हुन्छ
AZURE_OPENAI_API_VERSION=...
वास्तुकला अवलोकन
नोटबुकले एक हाइब्रिड ब्राउजर स्वचालन कार्यप्रवाह प्रदर्शन गर्दछ:
- CDP सक्षम गरेर Chrome सुरु हुन्छ ताकि Playwright र Browser-Use ले एउटै ब्राउजर सत्र साझा गर्न सकून्।
- Browser-Use एजेन्टले Airbnb खोल्ने, पप-अपहरू बन्द गर्ने, र स्टकहोम खोज्ने खोलामात्रि नेभिगेसन कार्यहरू सम्हाल्छ।
- सक्रिय पृष्ठलाई संरचित Pydantic स्किमासँग निरीक्षण गरी सूचीकरण शीर्षकहरू, प्रति रात मूल्यहरू, मूल्याङ्कनहरू, र URL हरू निकालिन्छ।
- Python तर्कले निकालिएका सूचीहरू तुलना गरी सबैभन्दा सस्तो नतिजा हाइलाइट गर्छ।
यस प्रविधिले Browser-Use को लचिलो, दृश्य-आधारित तर्कलाई कायम राख्छ र आवश्यक पर्दा तपाईंलाई निश्चित ब्राउजर नियन्त्रण दिन्छ।
मुख्य सिकाइ र उत्तम अभ्यासहरू
एजेन्ट vs अभिनेता कहिले प्रयोग गर्ने
| परिदृश्य |
एजेन्ट प्रयोग गर्नुहोस् |
अभिनेता प्रयोग गर्नुहोस् |
| गतिशील लेआउटहरू |
हो, AI पृष्ठ परिवर्तनहरूमा अनुकूलन गर्न सक्छ |
होईन, सहज तोकिने चयनकर्ताहरू टुट्न सक्छन् |
| ज्ञात संरचना |
होईन, एजेन्ट प्रत्यक्ष नियन्त्रणभन्दा ढिलो हुन्छ |
हो, छिटो र सटीक |
| तत्वहरू भेट्टाउने |
हो, प्राकृतिक भाषा राम्रो काम गर्छ |
होईन, ठ्याक्कै चयनकर्ताहरू आवश्यक हुन्छन् |
| समय नियन्त्रण |
होईन, कम पूर्वानुमेय |
हो, प्रतीक्षा र पुन: प्रयासहरूमा पूर्ण नियन्त्रण हुन्छ |
| जटिल कार्यप्रवाह |
हो, अप्रत्याशित UI अवस्थाहरू सम्हाल्छ |
होईन, स्पष्ट शाखाकरण आवश्यक हुन्छ |
Browser-Use उत्तम अभ्यासहरू
- अन्वेषण र गतिशील नेभिगेसनका लागि एजेन्टबाट सुरु गर्नुहोस्।
- अन्तरक्रिया पूर्वानुमेय हुँदा प्रत्यक्ष पृष्ठ नियन्त्रणमा सर्नुहोस्।
- संरचित आउटपुट मोडेलहरू प्रयोग गर्नुहोस् ताकि निकालेको डेटा प्रमाणित र टाइप-सुरक्षित होस्।
- दृश्य UI परिवर्तनहरू ट्रिगर गर्ने कार्यहरूको पछि रणनीतिक रूपमा ढिलाइहरू थप्नुहोस्।
- समस्या ट्रयाक गर्न सजिलो बनाउन पुनरावृत्तिमा स्क्रीनशटहरू लिनुहोस्।
- वेबसाइटहरू परिवर्तन हुन सक्छन् भनेर अपेक्षा गर्नुहोस् र पप-अप र लेआउट सिफ्टहरूको लागि फ्यालब्याक रणनीतिहरू डिजाइन गर्नुहोस्।
- लचिलोपन र सटीकता दुवै प्राप्त गर्न एजेन्ट र अभिनेता ढाँचाहरू मिश्रित गर्नुहोस्।
वास्तविक संसारका आवेदनहरू
- यात्रा बुकिङ र मूल्य निगरानी
- इ-कॉमर्स मूल्य तुलना र उपलब्धता जाँच
- गतिशील वेबसाइटहरूबाट संरचित निक्षेप
- दृश्य-ज्ञानी UI परीक्षण र प्रमाणीकरण
- वेबसाइट निगरानी र सूचना प्रेषण
- बहु-चरण प्रक्रियामा बुद्धिमानीपूर्ण फारम भर्ने
थप स्रोतहरू
अस्वीकरण:
यो दस्तावेज AI अनुवाद सेवा Co-op Translator मार्फत अनुवाद गरिएको हो। हामी शुद्धताको प्रयास गर्दछौं, तर कृपया जान्नुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धता हुन सक्छन्। मूल दस्तावेज यसको मौलिक भाषामा अधिकृत स्रोतको रूपमा मानिनेछ। महत्वपूर्ण सूचनाका लागि व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न कुनै पनि गलत बुझाइ वा गलत व्याख्याका लागि हामी जिम्मेवार हुने छैनौं।