ai-agents-for-beginners

Kompiuterinių naudojimosi agentų (CUA) kūrimas

Kompiuteriniai naudojimosi agentai gali bendrauti su svetainėmis taip pat, kaip ir žmogus: atidarant naršyklę, tikrinant puslapį ir imantis geriausio veiksmų, remiantis matomu. Šioje pamokoje sukursite naršyklės automatizavimo agentą, kuris ieško Airbnb, išskiria struktūrizuotą skelbimų informaciją ir nustato pigiausią apgyvendinimo variantą Stokholme.

Pamoka apjungia Browser-Use AI pagrįstai navigacijai, Playwright ir Chrome DevTools Protocol (CDP) naršyklės valdymui, Azure OpenAI su regėjimu pagrįstam samprotavimui, bei Pydantic struktūrizuotam išgavimui.

Įvadas

Šioje pamokoje aptarsime:

Mokymosi tikslai

Baigę šią pamoką, mokėsite:

Kodo pavyzdys

Pamoka apima vieną užrašų knygutę:

Reikalavimai

Diegimas

Įdiekite paketų rinkinius, naudojamus užrašų knygutėje:

pip install browser_use playwright python-dotenv
playwright install chromium

Nustatykite Azure OpenAI aplinkos kintamuosius, kuriuos naudoja užrašų knygutė:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Pasirenkama: jei nepateikta, numatytoji versija yra naujausia API versija
AZURE_OPENAI_API_VERSION=...

Architektūros apžvalga

Užrašų knygutė demonstruoja hibridinę naršyklės automatizavimo darbo eigą:

  1. Chrome paleidžiamas su įjungtu CDP, kad Playwright ir Browser-Use galėtų naudoti tą pačią naršyklės sesiją.
  2. Browser-Use agentas tvarko atviras navigacijos užduotis, tokias kaip Airbnb atidarymas, iššokančių langų uždarymas ir Stokholmo paieška.
  3. Aktyvus puslapis tikrinamas naudojant struktūrizuotą Pydantic schemą, kuri ištraukia skelbimų pavadinimus, naktinių kainas, įvertinimus ir URL.
  4. Python logika palygina ištrauktus skelbimus ir paryškina pigiausią variantą.

Šis požiūris išlaiko lanksčią, regėjimu pagrįstą samprotavimo galią, kuri būdinga Browser-Use, bet kartu suteikia deterministinę naršyklės kontrolę, kai jos reikia.

Pagrindiniai pastebėjimai ir geriausios praktikos

Kada naudoti agentą, o kada veikėją

Situacija Naudoti agentą Naudoti veikėją
Dinamiški dizainai Taip, AI gali prisitaikyti prie puslapio pakeitimų Ne, trapūs selektoriai gali sugesti
Žinoma struktūra Ne, agentas yra lėtesnis už tiesioginę kontrolę Taip, greita ir tiksli
Elementų radimas Taip, natūrali kalba veikia gerai Ne, reikia tikslių selektorių
Laiko kontrolė Ne, mažiau nuspėjama Taip, pilna valdymo galimybė laukti ir bandyti iš naujo
Sudėtingos darbo eigos Taip, tvarko netikėtas UI būsenas Ne, reikalauja aiškių šakų

Browser-Use geriausios praktikos

  1. Pradėkite nuo agento tyrinėjimui ir dinamiškai navigacijai.
  2. Pereikite prie tiesioginės puslapio kontrolės, kai sąveika tampa nuspėjama.
  3. Naudokite struktūrizuotos išvesties modelius, kad išgauti duomenys būtų validuoti ir tipizuoti.
  4. Strategiškai pridėkite delsą po veiksmų, kurie sukelia matomus UI pokyčius.
  5. Fiksuokite ekrano nuotraukas iteracijos metu, kad būtų lengviau derinti klaidas.
  6. Tikėkitės svetainių pokyčių ir sukurkite atsarginio plano strategijas iššokantiems langams ir dizaino pokyčiams.
  7. Derinkite agentų ir veikėjų modelius, kad gautumėte tiek lankstumo, tiek tikslumo.

Realios taikymo sritys

Papildomi ištekliai


Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą Co-op Translator. Nors stengiamės užtikrinti tikslumą, prašome suprasti, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Pirminis dokumentas gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Svarbiai informacijai rekomenduojama naudoti profesionalų žmogišką vertimą. Mes neatsakome už bet kokius nesusipratimus ar neteisingą interpretavimą, atsiradusius naudojantis šiuo vertimu.