കമ്പ്യൂട്ടർ ഉപയോഗ ഏജൻസ് (CUA) നിർമ്മിക്കൽ
കമ്പ്യൂട്ടർ ഉപയോഗ ഏജൻസ് ഒരു വ്യക്തി എന്തുപോലെ വെബ്സൈറ്റുകളുമായി ഇടപെടുകയാണെങ്കിൽ അതുപോലെ ഇടപെടാൻ കഴിയും: ബ്രൗസർ തുറക്കുക, പേജ് പരിശോധിക്കുക, അവിടെ നിന്ന് അടുത്ത മികച്ച നടപടി സ്വീകരിക്കുക. ഈ പാഠത്തിൽ, നിങ്ങൾ ബ്റൗസർ ഓട്ടോമേഷൻ ഏജന്റ് ഉണ്ടാക്കും, അത് Airbnb തിരയുകയും, നിർമ്മിത ലിസ്റ്റിങ് ഡാറ്റ എടുക്കുകയും, സ്റ്റോക്ക്ഹോംയിലെ ഏറ്റവും കുറഞ്ഞ തുക നൽകുന്ന താമസ സ്ഥലത്തെ തിരിച്ചറിഞ്ഞും നടത്തും.
ഈ പാഠം AI-പ്രേരിത നാവിഗേഷൻ සඳහා Browser-Use, ബ്രൗസർ നിയന്ത്രണത്തിനായി Playwright, Chrome DevTools പ്രോട്ടോക്കോൾ (CDP), ദൃശ്യ സജീവം റീസണിംഗിനായി Azure OpenAI, സൃഷ്ടിരീതിയായ എക്സ്ട്രാക്ഷനായി Pydantic എന്നിവ ചേർത്ത് കായികമാക്കുന്നു.
പരിചയം
ഈ പാഠം ഉൾപ്പെടുന്നത്:
- API-ഒന്നും മാത്രം ഓട്ടോമേഷനിന് തുലനയായി കമ്പ്യൂട്ടർ ഉപയോഗ ഏജന്റുകൾ യാതൊരു സാഹചര്യമാണുള്ളത് എന്നർത്ഥം മനസിലാക്കൽ
- ഉറപ്പുള്ള ബ്രൗസർ ലൈഫ്സൈക്കിൾ മാനേജ്മെന്റ് സാധ്യമാക്കാൻ Browser-Use നെ Playwright, CDP എന്നിവയുമായി സംയോജിപ്പിക്കൽ
- ഡൈനമിക് വെബ് പേജുകളിൽ നിന്നുള്ള ലിസ്റ്റിങ് ഡാറ്റ എടുക്കാൻ Azure OpenAI ദൃശ്യവും ഘടനാത്മകമായ Pydantic ഔട്ട്പുട്ടും ഉപയോഗിക്കൽ
- ഏജന്റും, ആക്ടറും, ഹൈബ്രിഡ് ബ്രൗസർ ഓട്ടോമേഷൻ പ്രവൃത്തി പ്രവണതകളിൽ ഏത് സമയം ഉപയോഗിക്കുമെന്ന് തീരുമാനിക്കൽ
പഠനലക്ഷ്യങ്ങൾ
ഈ പാഠം പൂർത്തിയാക്കിയ ശേഷം, നിങ്ങൾക്ക് അറിയാം:
- Browser-Use Azure OpenAI, Playwright എന്നിവയോടൊപ്പം ക്രമീകരിക്കുന്ന വിധം
- യഥാർത്ഥ വെബ്സൈറ്റ് നാവിഗേഷനും ഡൈനമിക് UI ഘടകങ്ങൾ കൈകാര്യം ചെയ്യുന്നതുമായ ഒരു ബ്രൗസർ ഓട്ടോമേഷൻ പ്രവൃത്തി പ്രവൃത്തി നിർമ്മിക്കാം
- കാണാവുന്ന പേജ് ഉള്ളടക്കത്തിൽ നിന്ന് ടൈപ്പു ചെയ്ത ഫലങ്ങൾ എടുക്കുകയും അവ യഥാർത്ഥ ബിസിനസ് തർക്കങ്ങളിൽ പരിവർത്തനം ചെയ്യുകയും ചെയ്യുക
- ബ്രൗസർ ജോലി എത്രമാത്രം പ്രവചിതമായിരിക്കുന്നുവെന്നതിന് അടിസ്ഥാനമാക്കി ഏജന്റ്, ആക്ടർ പാറ്റേൺസുകൾ ഇടയിൽ തിരഞ്ഞെടുക്കുക
കോഡ് സാമ്പിൾ
ഈ പാഠത്തിൽ ഒരുദ്യോഗക്കുറിപ്പ് ട്യൂട്ടോറിയൽ ഉൾപ്പെടുന്നു:
- 15-browser-user.ipynb: CDP വഴി ക്രോം സെഷൻ ആരംഭിച്ച്, Airbnbയിൽ സ്റ്റോക്ക്ഹോം ലിസ്റ്റിങ്ങുകൾ തിരയുന്നു, Browser-Use ദൃശ്യ ഉപാധിയാൽ വിലകൾ എടുക്കുന്നു, നിർമ്മിത ഡാറ്റയായി ഏറ്റവും കുറഞ്ഞ ഓപ്ഷൻ തിരികെ നൽകുന്നു.
മുൻഅനുബന്ധങ്ങൾ
- Python 3.12+
- നിങ്ങളുടെ പരിസ്ഥിതിയിൽ Azure OpenAI ഡിപ്ലോയ്മെന്റ് ക്രമീകരിച്ചിട്ടുള്ളത്
- ക്രോം അല്ലെങ്കിൽ ക്രോമിയം ലൊക്കൽ അതവിടെ ഇൻസ്റ്റാൾ ചെയ്തിട്ടുള്ളത്
- Playwright ഡിപ്പൻഡൻസികൾ ഇൻസ്റ്റാൾ ചെയ്തിരിക്കുക
- Async Python-ൽ അടിസ്ഥാന പരിചയം
സെറ്റപ്പ്
നോട്ട്ബുക്കിൽ ഉപയോഗിക്കുന്ന പാക്കേജുകൾ ഇൻസ്റ്റാൾ ചെയ്യുക:
pip install browser_use playwright python-dotenv
playwright install chromium
നോട്ട്ബുക്കിൽ ഉപയോഗിക്കുന്ന Azure OpenAI പരിസ്ഥിതി വ്യത്യസ്ഥങ്ങൾ സെറ്റ് ചെയ്യുക:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ഐച്ഛികം: ഒഴിവാക്കിയാൽ 최신 API പതിപ്പിലേക്കാണ് ഡിഫോൾട്ട്
AZURE_OPENAI_API_VERSION=...
ആർക്കിടെക്ചർ അവലോകനം
നോട്ട്ബുക്ക് ഹൈബ്രിഡ് ബ്രൗസർ ഓട്ടോമേഷൻ പ്രവൃത്തി പ്രവൃത്തി കാണിക്കുന്നു:
- ക്രോം CDP ഓൺ ചെയ്തുകൊണ്ട് ആരംഭിക്കുന്നു അതിനാൽ Playwright, Browser-Use ഒരേ ബ്രൗസർ സെഷൻ പങ്കുവെയ്ക്കാം.
- Browser-Use ഏജന്റ് Airbnb തുറക്കൽ, പോപ്-അപുകൾ ഒഴിവാക്കൽ, സ്റ്റോക്ക്ഹോം തിരയൽ പോലുള്ള ഇന്റാക്ടീവ് നാവിഗേഷൻ ദൗത്യങ്ങൾ കൈകാര്യം ചെയ്യുന്നു.
- സജീവ പേജ് ഘടനാപരമായ Pydantic സ്കീമ ഉപയോഗിച്ച് പരിശോധിച്ച് ലിസ്റ്റിങ് തലക്കെട്ടുകൾ, രാത്രി വാടക, റേറ്റിംഗുകൾ, URLകൾ എടുക്കുന്നു.
- പൈതൺ ലാജിക്ക് എടുത്ത ലിസ്റ്റിങ്സ് താരതമ്യം ചെയ്ത് ഏറ്റവും കുറഞ്ഞ ഫലത്തെ ഹൈലൈറ്റ് ചെയ്യുന്നു.
ഈ സമീപനം Browser-Use ന് ഒബ്ജക്റ്റീവ്, ദൃശ്യത്തെ ആശ്രയിച്ചൊരു റീസണിംഗും അനുവദിക്കുമ്പോൾ, നിർണായകമായി ബ്രൗസർ നിയന്ത്രണം ആവശ്യമുള്ളപ്പോൾ അതും നല്കുന്നു.
പ്രധാന ക്ലുക്കുകളും മികച്ച പ്രായോഗികതകളും
ഏജന്റ് vs ആക്ടർ എപ്പോൾ ഉപയോഗിക്കണം
| സാഹചര്യങ്ങൾ |
ഏജന്റ് ഉപയോഗിക്കുക |
ആക്ടർ ഉപയോഗിക്കുക |
| ഡൈനമിക് ലേസുകൾ |
ஆம், AI പേജ് മാറ്റങ്ങളിൽ ക്രമീകരണമായിരിക്കും |
ഇല്ല, തകർപ്പുള്ള സെലക്ടർസ് തകരാം |
| അറിയപ്പെട്ട ഘടന |
അല്ല, ഏജന്റ് നേരിട്ട് നിയന്ത്രണത്തിന് മുകളില് തൻമയുള്ളത് കുറവാണ് |
ஆம், വേഗത്തിലും കൃത്യമായും |
| ഘടകങ്ങൾ കണ്ടെത്തൽ |
ஆம், സ്വാഭാവിക ഭാഷ നല്ലതാകാം |
ഇല്ല, കൃത്യം സെലക്ടർ അനിവാര്യമാണ് |
| സമയ നിയന്ത്രണം |
അല്ല, പ്രവചിക്കാനാകാത്തത് കൂടുതലാണ് |
ஆம், കാത്തിരിപ്പ്, മടക്കം എന്നിവക്ക് പൂർണ്ണ നിയന്ത്രണം |
| കോംപ്ലെക്സ് പ്രവൃത്തി പ്രവണതകൾ |
ஆம், അപ്രതീക്ഷിത UI നിലകൾ കൈകാര്യം ചെയ്യുന്നു |
അല്ല, വ്യക്തമായ ബ്രാഞ്ചിങ് ആവശ്യമുണ്ട് |
Browser-Use മികച്ച പ്രായോഗിക രീതികൾ
- അന്വേഷണം, ഡൈനമിക് നാവിഗേഷനിനായി ഒരു ഏജന്റോടെ ആരംഭിക്കുക.
- ഇടപാട് പ്രവചിക്കാവുന്നതായി വന്നാൽ നേരിട്ട് പേജ് നിയന്ത്രണത്തിലേക്ക് മാറുക.
- എടുത്ത ഡാറ്റ സ്ഥിരീകരിക്കാൻ ഘടനാപരമായ ഔട്ട്പുട്ട് മോഡലുകൾ ഉപയോഗിക്കുക.
- കാഴ്ചക്കാരിയായ UI മാറ്റങ്ങൾ സൃഷ്ടിക്കുന്ന നടപടി കഴിഞ്ഞ് സമയപരിധികൾ തേരൂ.
- പരാജയങ്ങൾ എളുപ്പത്തിൽ ഡീബഗ് ചെയ്യുന്നതിനായി പ്രവർത്തനം ആവർത്തിക്കുമ്പോൾ സ്ക്രീൻഷോട്ടുകൾ എടുത്തിടുക.
- വെബ്സൈറ്റുകൾ മാറും എന്ന് കരുതുക, പോപ്-അപുകൾക്കും ലേ ഔട്ട് മാറ്റങ്ങൾക്കും മുൻകരുതൽ തന്ത്രങ്ങൾ രൂപകൽപ്പന ചെയ്യുക.
- ഏജന്റ്, ആക്ടർ പാറ്റേണുകൾ ചേർത്ത് സുഗമതയും കൃത്യതയും ലഭിക്കാൻ ശ്രമിക്കുക.
യഥാർത്ഥ ലോക പ്രയോഗങ്ങൾ
- യാത്രാ ബുക്കിംഗ്, വില നിരീക്ഷണം
- ഇ-കൊമേഴ്സ് വില താരതമ്യം, ലഭ്യത പരിശോദനം
- ഡൈനമിക് വെബ്സൈറ്റുകളിൽ നിന്ന് ഘടനാപരമായ എക്സ്ട്രാക്ഷൻ
- ദൃശ്യബോധമുള്ള UI പരിശോധന, ഉറപ്പായിക്കൽ
- വെബ്സൈറ്റ് നിരീക്ഷണവും അലേർട്ടിങ്ങും
- ബഹുവidwa ഘട്ട പ്രക്രിയകളിലൂടെ ബുദ്ധിമാനായ ഫോം പൂരിച്ചലുകൾ
അധിക സ്രോതസ്സ്
ഡിസ്ക്ലെയിമർ:
ഈ ഡോക്യൂമെന്റ് AI പരിഭാഷ സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം ശരിയായ വിവർത്തനത്തിനായി പരിശ്രമിച്ചിരുന്നും, യന്ത്രം നിർവഹിക്കുന്ന വിവർത്തനത്തിൽ പിശകുകളും അകുസൃതികളും ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിച്ചിരിക്കുക. യഥാർത്ഥ ഭാഷയിലെ മൂല ഡോക്യൂമെന്റിനെ പ്രാമാണികമായ ഉറവിടമായി കരുതുക. പ്രധാനപ്പെട്ട വിവരങ്ങൾക്കായി, പ്രൊഫഷണൽ മാന്വിവർത്തനം നിർദ്ദേശിക്കുന്നു. ഈ വിവർത്തനം ഉപയോഗിച്ചതിനെ തുടർന്ന് ഉണ്ടാകുന്ന എത്രയും തെറ്റായ മനസ്സിലാക്കലുകൾക്കും അർത്ഥവത്തയാക്കലുകൾക്കും ഞങ്ങൾ ഉത്തരവാദികളല്ല.