ai-agents-for-beginners

कम्प्युटर प्रयोग एजेन्टहरू (CUA) निर्माण

कम्प्युटर प्रयोग एजेन्टहरूले वेबसाइटहरूसँग त्यहि तरिकाले अन्तरक्रिया गर्न सक्छन् जस्तै मान्छेले गर्छ: ब्राउजर खोल्दै, पृष्ठ निरीक्षण गर्दै, र देखिएका कुराबाट सबैभन्दा राम्रो अर्को कार्य लिँदै। यस पाठमा, तपाईं एक ब्राउजर स्वचालन एजेन्ट निर्माण गर्नुहुनेछ जुन Airbnb खोज्छ, संरचित सूचीकरण डेटा निकाल्छ, र स्टकहोममा सबैभन्दा सस्तो बस्ने ठाउँ पहिचान गर्छ।

पाठले AI-चालित नेभिगेसनका लागि Browser-Use, ब्राउजर नियन्त्रणका लागि Playwright र Chrome DevTools Protocol (CDP), दृश्य सक्षम तर्कका लागि Azure OpenAI, र संरचित निक्षेपका लागि Pydantic संयोजन गर्दछ।

परिचय

यस पाठले समेट्नेछ:

सिकाइ लक्ष्यहरू

यस पाठ सम्पन्न गरेपछि, तपाईं जान्नु हुनेछ कसरी:

कोड नमूना

यस पाठमा एउटा नोटबुक ट्युटोरियल समावेश छ:

पूर्व शर्तहरू

सेटअप

नोटबुकमा प्रयोग भएका प्याकेजहरू स्थापना गर्नुहोस्:

pip install browser_use playwright python-dotenv
playwright install chromium

नोटबुकले प्रयोग गर्ने Azure OpenAI वातावरण चरहरू सेट गर्नुहोस्:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# वैकल्पिक: छुट्याइएको बेला नयाँतम API संस्करणमा डिफल्ट हुन्छ
AZURE_OPENAI_API_VERSION=...

वास्तुकला अवलोकन

नोटबुकले एक हाइब्रिड ब्राउजर स्वचालन कार्यप्रवाह प्रदर्शन गर्दछ:

  1. CDP सक्षम गरेर Chrome सुरु हुन्छ ताकि Playwright र Browser-Use ले एउटै ब्राउजर सत्र साझा गर्न सकून्।
  2. Browser-Use एजेन्टले Airbnb खोल्ने, पप-अपहरू बन्द गर्ने, र स्टकहोम खोज्ने खोलामात्रि नेभिगेसन कार्यहरू सम्हाल्छ।
  3. सक्रिय पृष्ठलाई संरचित Pydantic स्किमासँग निरीक्षण गरी सूचीकरण शीर्षकहरू, प्रति रात मूल्यहरू, मूल्याङ्कनहरू, र URL हरू निकालिन्छ।
  4. Python तर्कले निकालिएका सूचीहरू तुलना गरी सबैभन्दा सस्तो नतिजा हाइलाइट गर्छ।

यस प्रविधिले Browser-Use को लचिलो, दृश्य-आधारित तर्कलाई कायम राख्छ र आवश्यक पर्दा तपाईंलाई निश्चित ब्राउजर नियन्त्रण दिन्छ।

मुख्य सिकाइ र उत्तम अभ्यासहरू

एजेन्ट vs अभिनेता कहिले प्रयोग गर्ने

परिदृश्य एजेन्ट प्रयोग गर्नुहोस् अभिनेता प्रयोग गर्नुहोस्
गतिशील लेआउटहरू हो, AI पृष्ठ परिवर्तनहरूमा अनुकूलन गर्न सक्छ होईन, सहज तोकिने चयनकर्ताहरू टुट्न सक्छन्
ज्ञात संरचना होईन, एजेन्ट प्रत्यक्ष नियन्त्रणभन्दा ढिलो हुन्छ हो, छिटो र सटीक
तत्वहरू भेट्टाउने हो, प्राकृतिक भाषा राम्रो काम गर्छ होईन, ठ्याक्कै चयनकर्ताहरू आवश्यक हुन्छन्
समय नियन्त्रण होईन, कम पूर्वानुमेय हो, प्रतीक्षा र पुन: प्रयासहरूमा पूर्ण नियन्त्रण हुन्छ
जटिल कार्यप्रवाह हो, अप्रत्याशित UI अवस्थाहरू सम्हाल्छ होईन, स्पष्ट शाखाकरण आवश्यक हुन्छ

Browser-Use उत्तम अभ्यासहरू

  1. अन्वेषण र गतिशील नेभिगेसनका लागि एजेन्टबाट सुरु गर्नुहोस्।
  2. अन्तरक्रिया पूर्वानुमेय हुँदा प्रत्यक्ष पृष्ठ नियन्त्रणमा सर्नुहोस्।
  3. संरचित आउटपुट मोडेलहरू प्रयोग गर्नुहोस् ताकि निकालेको डेटा प्रमाणित र टाइप-सुरक्षित होस्।
  4. दृश्य UI परिवर्तनहरू ट्रिगर गर्ने कार्यहरूको पछि रणनीतिक रूपमा ढिलाइहरू थप्नुहोस्।
  5. समस्या ट्रयाक गर्न सजिलो बनाउन पुनरावृत्तिमा स्क्रीनशटहरू लिनुहोस्।
  6. वेबसाइटहरू परिवर्तन हुन सक्छन् भनेर अपेक्षा गर्नुहोस् र पप-अप र लेआउट सिफ्टहरूको लागि फ्यालब्याक रणनीतिहरू डिजाइन गर्नुहोस्।
  7. लचिलोपन र सटीकता दुवै प्राप्त गर्न एजेन्ट र अभिनेता ढाँचाहरू मिश्रित गर्नुहोस्।

वास्तविक संसारका आवेदनहरू

थप स्रोतहरू


अस्वीकरण:
यो दस्तावेज AI अनुवाद सेवा Co-op Translator मार्फत अनुवाद गरिएको हो। हामी शुद्धताको प्रयास गर्दछौं, तर कृपया जान्नुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धता हुन सक्छन्। मूल दस्तावेज यसको मौलिक भाषामा अधिकृत स्रोतको रूपमा मानिनेछ। महत्वपूर्ण सूचनाका लागि व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न कुनै पनि गलत बुझाइ वा गलत व्याख्याका लागि हामी जिम्मेवार हुने छैनौं।