ai-agents-for-beginners

Tietokoneen käyttöagenttien (CUA) rakentaminen

Tietokoneen käyttöagentit voivat olla vuorovaikutuksessa verkkosivustojen kanssa samalla tavalla kuin ihminen: avaamalla selaimen, tutkimalla sivua ja valitsemalla seuraavan parhaan toimenpiteen sen perusteella, mitä ne näkevät. Tässä oppitunnissa rakennat selaimen automaatioagentin, joka hakee Airbnb:stä, poimii jäsenneltyjä ilmoitustietoja ja tunnistaa edullisimman majoituksen Tukholmassa.

Oppitunti yhdistää Browser-Use:n AI-ohjattuun navigointiin, Playwrightin ja Chrome DevTools Protocolin (CDP) selaimen ohjaukseen, Azure OpenAI:n näkökykyyn perustuvaan päättelyyn ja Pydanticin rakenteelliseen poimintaan.

Johdanto

Tässä oppitunnissa käsitellään:

Oppimistavoitteet

Oppitunnin suorittamisen jälkeen osaat:

Koodiesimerkki

Tässä oppitunnissa on yksi muistikirjaopastus:

Ennen aloittamista

Asennus

Asenna muistikirjassa käytetyt paketit:

pip install browser_use playwright python-dotenv
playwright install chromium

Aseta muistikirjan käyttämät Azure OpenAI -ympäristömuuttujat:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Valinnainen: oletuksena käytetään uusinta API-versiota, jos jätetään pois
AZURE_OPENAI_API_VERSION=...

Arkkitehtuurin yleiskuva

Muistikirja esittelee hybridi-selaimen automaatiotyönkulun:

  1. Chrome käynnistyy CDP käytössä, jotta sekä Playwright että Browser-Use voivat jakaa saman selainistunnon.
  2. Browser-Use-agentti käsittelee avoimen navigoinnin tehtäviä, kuten Airbnb:n avaamista, ponnahdusikkunoiden sulkemista ja Tukholman hakua.
  3. Aktiivinen sivu tutkitaan rakenteellisen Pydantic-skeeman avulla poimien ilmoitusten otsikot, hintayöt, arvostelut ja URL-osoitteet.
  4. Python-logiikka vertailee poimittuja ilmoituksia ja korostaa halvimman tuloksen.

Tämä lähestymistapa säilyttää Browser-Use:n joustavan, näkökykyyn perustuvan päättelyn ja tarjoaa samalla määrityksellisen selaimen hallinnan, kun sitä tarvitaan.

Tärkeimmät opit ja parhaat käytännöt

Milloin käyttää agenttia vs. toimijaa

Tilanne Käytä agenttia Käytä toimijaa
Dynaamiset asettelut Kyllä, tekoäly sopeutuu sivun muutoksiin Ei, hauraat valitsimet voivat rikkoutua
Tunnettu rakenne Ei, agentti on hitaampi kuin suora ohjaus Kyllä, nopea ja tarkka
Elementtien löytäminen Kyllä, luonnollinen kieli toimii hyvin Ei, tarvitaan eksakteja valitsimia
Ajanhallinta Ei, vähemmän ennustettavissa Kyllä, täysi hallinta odotuksista ja toistoista
Monimutkaiset työnkulut Kyllä, käsittelee odottamattomia käyttöliittymätiloja Ei, vaatii eksplisiittisiä haaroja

Browser-Use:n parhaat käytännöt

  1. Aloita agentilla tutkimista ja dynaamista navigointia varten.
  2. Vaihda suoraan sivun ohjaukseen, kun vuorovaikutus muuttuu ennustettavaksi.
  3. Käytä rakenteellisia tulostemalleja, jotta poimittu data on validoitua ja tyyppiturvallista.
  4. Lisää viiveitä strategisesti toimintojen jälkeen, jotka laukaisevat näkyvät käyttöliittymän muutokset.
  5. Tallenna kuvakaappauksia iteroinnin aikana, jotta virheiden jäljitys on helpompaa.
  6. Varaudu verkkosivustojen muutoksiin ja suunnittele varasuunnitelmat ponnahdusikkunoille ja asettelun muutoksille.
  7. Yhdistä agentti- ja toimijakuvioita saadaksesi sekä joustavuutta että tarkkuutta.

Käytännön sovellukset

Lisäresurssit


Vastuuvapauslauseke:
Tämä asiakirja on käännetty käyttämällä tekoälypohjaista käännöspalvelua Co-op Translator. Vaikka pyrimme tarkkuuteen, automaattiset käännökset voivat sisältää virheitä tai epätarkkuuksia. Alkuperäistä asiakirjaa sen alkuperäiskielellä tulee pitää auktoritatiivisena lähteenä. Tärkeissä tiedoissa suositellaan ammattimaista ihmiskäännöstä. Emme ole vastuussa tämän käännöksen käytöstä johtuvista väärinymmärryksistä tai virhetulkinnoista.