ai-agents-for-beginners

കമ്പ്യൂട്ടർ ഉപയോഗ ഏജൻസ് (CUA) നിർമ്മിക്കൽ

കമ്പ്യൂട്ടർ ഉപയോഗ ഏജൻസ് ഒരു വ്യക്തി എന്തുപോലെ വെബ്സൈറ്റുകളുമായി ഇടപെടുകയാണെങ്കിൽ അതുപോലെ ഇടപെടാൻ കഴിയും: ബ്രൗസർ തുറക്കുക, പേജ് പരിശോധിക്കുക, അവിടെ നിന്ന് അടുത്ത മികച്ച നടപടി സ്വീകരിക്കുക. ഈ പാഠത്തിൽ, നിങ്ങൾ ബ്‌റൗസർ ഓട്ടോമേഷൻ ഏജന്റ് ഉണ്ടാക്കും, അത് Airbnb തിരയുകയും, നിർമ്മിത ലിസ്റ്റിങ് ഡാറ്റ എടുക്കുകയും, സ്റ്റോക്ക്‌ഹോംയിലെ ഏറ്റവും കുറഞ്ഞ തുക നൽകുന്ന താമസ സ്ഥലത്തെ തിരിച്ചറിഞ്ഞും നടത്തും.

ഈ പാഠം AI-പ്രേരിത നാവിഗേഷൻ සඳහා Browser-Use, ബ്രൗസർ നിയന്ത്രണത്തിനായി Playwright, Chrome DevTools പ്രോട്ടോക്കോൾ (CDP), ദൃശ്യ സജീവം റീസണിംഗിനായി Azure OpenAI, സൃഷ്ടിരീതിയായ എക്സ്ട്രാക്ഷനായി Pydantic എന്നിവ ചേർത്ത് കായികമാക്കുന്നു.

പരിചയം

ഈ പാഠം ഉൾപ്പെടുന്നത്:

പഠനലക്ഷ്യങ്ങൾ

ഈ പാഠം പൂർത്തിയാക്കിയ ശേഷം, നിങ്ങൾക്ക് അറിയാം:

കോഡ് സാമ്പിൾ

ഈ പാഠത്തിൽ ഒരുദ്യോഗക്കുറിപ്പ് ട്യൂട്ടോറിയൽ ഉൾപ്പെടുന്നു:

മുൻ‌അനുബന്ധങ്ങൾ

സെറ്റപ്പ്

നോട്ട്ബുക്കിൽ ഉപയോഗിക്കുന്ന പാക്കേജുകൾ ഇൻസ്റ്റാൾ ചെയ്യുക:

pip install browser_use playwright python-dotenv
playwright install chromium

നോട്ട്ബുക്കിൽ ഉപയോഗിക്കുന്ന Azure OpenAI പരിസ്ഥിതി വ്യത്യസ്ഥങ്ങൾ സെറ്റ് ചെയ്യുക:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ഐച്ഛികം: ഒഴിവാക്കിയാൽ 최신 API പതിപ്പിലേക്കാണ് ഡിഫോൾട്ട്
AZURE_OPENAI_API_VERSION=...

ആർക്കിടെക്ചർ അവലോകനം

നോട്ട്ബുക്ക് ഹൈബ്രിഡ് ബ്രൗസർ ഓട്ടോമേഷൻ പ്രവൃത്തി പ്രവൃത്തി കാണിക്കുന്നു:

  1. ക്രോം CDP ഓൺ ചെയ്തുകൊണ്ട് ആരംഭിക്കുന്നു അതിനാൽ Playwright, Browser-Use ഒരേ ബ്രൗസർ സെഷൻ പങ്കുവെയ്ക്കാം.
  2. Browser-Use ഏജന്റ് Airbnb തുറക്കൽ, പോപ്-അപുകൾ ഒഴിവാക്കൽ, സ്റ്റോക്ക്ഹോം തിരയൽ പോലുള്ള ഇന്‍‌റാക്ടീവ് നാവിഗേഷൻ ദൗത്യങ്ങൾ കൈകാര്യം ചെയ്യുന്നു.
  3. സജീവ പേജ് ഘടനാപരമായ Pydantic സ്‌കീമ ഉപയോഗിച്ച് പരിശോധിച്ച് ലിസ്റ്റിങ് തലക്കെട്ടുകൾ, രാത്രി വാടക, റേറ്റിംഗുകൾ, URLകൾ എടുക്കുന്നു.
  4. പൈതൺ ലാജിക്ക് എടുത്ത ലിസ്റ്റിങ്സ് താരതമ്യം ചെയ്ത് ഏറ്റവും കുറഞ്ഞ ഫലത്തെ ഹൈലൈറ്റ് ചെയ്യുന്നു.

ഈ സമീപനം Browser-Use ന് ഒബ്ജക്റ്റീവ്, ദൃശ്യത്തെ ആശ്രയിച്ചൊരു റീസണിംഗും അനുവദിക്കുമ്പോൾ, നിർണായകമായി ബ്രൗസർ നിയന്ത്രണം ആവശ്യമുള്ളപ്പോൾ അതും നല്കുന്നു.

പ്രധാന ക്ലുക്കുകളും മികച്ച പ്രായോഗികതകളും

ഏജന്റ് vs ആക്ടർ എപ്പോൾ ഉപയോഗിക്കണം

സാഹചര്യങ്ങൾ ഏജന്റ് ഉപയോഗിക്കുക ആക്ടർ ഉപയോഗിക്കുക
ഡൈനമിക് ലേസുകൾ ஆம், AI പേജ് മാറ്റങ്ങളിൽ ക്രമീകരണമായിരിക്കും ഇല്ല, തകർപ്പുള്ള സെലക്ടർസ് തകരാം
അറിയപ്പെട്ട ഘടന അല്ല, ഏജന്റ് നേരിട്ട് നിയന്ത്രണത്തിന് മുകളില്‍ തൻമയുള്ളത് കുറവാണ് ஆம், വേഗത്തിലും കൃത്യമായും
ഘടകങ്ങൾ കണ്ടെത്തൽ ஆம், സ്വാഭാവിക ഭാഷ നല്ലതാകാം ഇല്ല, കൃത്യം സെലക്ടർ അനിവാര്യമാണ്
സമയ നിയന്ത്രണം അല്ല, പ്രവചിക്കാനാകാത്തത് കൂടുതലാണ് ஆம், കാത്തിരിപ്പ്, മടക്കം എന്നിവക്ക് പൂർണ്ണ നിയന്ത്രണം
കോംപ്ലെക്സ് പ്രവൃത്തി പ്രവണതകൾ ஆம், അപ്രതീക്ഷിത UI നിലകൾ കൈകാര്യം ചെയ്യുന്നു അല്ല, വ്യക്തമായ ബ്രാഞ്ചിങ് ആവശ്യമുണ്ട്

Browser-Use മികച്ച പ്രായോഗിക രീതികൾ

  1. അന്വേഷണം, ഡൈനമിക് നാവിഗേഷനിനായി ഒരു ഏജന്റോടെ ആരംഭിക്കുക.
  2. ഇടപാട് പ്രവചിക്കാവുന്നതായി വന്നാൽ നേരിട്ട് പേജ് നിയന്ത്രണത്തിലേക്ക് മാറുക.
  3. എടുത്ത ഡാറ്റ സ്ഥിരീകരിക്കാൻ ഘടനാപരമായ ഔട്ട്പുട്ട് മോഡലുകൾ ഉപയോഗിക്കുക.
  4. കാഴ്ചക്കാരിയായ UI മാറ്റങ്ങൾ സൃഷ്ടിക്കുന്ന നടപടി കഴിഞ്ഞ് സമയപരിധികൾ തേരൂ.
  5. പരാജയങ്ങൾ എളുപ്പത്തിൽ ഡീബഗ് ചെയ്യുന്നതിനായി പ്രവർത്തനം ആവർത്തിക്കുമ്പോൾ സ്ക്രീൻഷോട്ടുകൾ എടുത്തിടുക.
  6. വെബ്സൈറ്റുകൾ മാറും എന്ന് കരുതുക, പോപ്-അപുകൾക്കും ലേ ഔട്ട് മാറ്റങ്ങൾക്കും മുൻകരുതൽ തന്ത്രങ്ങൾ രൂപകൽപ്പന ചെയ്യുക.
  7. ഏജന്റ്, ആക്ടർ പാറ്റേണുകൾ ചേർത്ത് സുഗമതയും കൃത്യതയും ലഭിക്കാൻ ശ്രമിക്കുക.

യഥാർത്ഥ ലോക പ്രയോഗങ്ങൾ

അധിക സ്രോതസ്സ്


ഡിസ്ക്ലെയിമർ:
ഈ ഡോക്യൂമെന്റ് AI പരിഭാഷ സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം ശരിയായ വിവർത്തനത്തിനായി പരിശ്രമിച്ചിരുന്നും, യന്ത്രം നിർവഹിക്കുന്ന വിവർത്തനത്തിൽ പിശകുകളും അകുസൃതികളും ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിച്ചിരിക്കുക. യഥാർത്ഥ ഭാഷയിലെ മൂല ഡോക്യൂമെന്റിനെ പ്രാമാണികമായ ഉറവിടമായി കരുതുക. പ്രധാനപ്പെട്ട വിവരങ്ങൾക്കായി, പ്രൊഫഷണൽ മാന്‍വിവർത്തനം നിർദ്ദേശിക്കുന്നു. ഈ വിവർത്തനം ഉപയോഗിച്ചതിനെ തുടർന്ന് ഉണ്ടാകുന്ന എത്രയും തെറ്റായ മനസ്സിലാക്കലുകൾക്കും അർത്ഥവത്തയാക്കലുകൾക്കും ഞങ്ങൾ ഉത്തരവാദികളല്ല.