ai-agents-for-beginners

Kompiuterinių naudojimosi agentų (CUA) kūrimas

Kompiuteriniai naudojimosi agentai gali bendrauti su svetainėmis taip pat, kaip ir žmogus: atidarant naršyklę, tikrinant puslapį ir imantis geriausio veiksmų, remiantis matomu. Šioje pamokoje sukursite naršyklės automatizavimo agentą, kuris ieško Airbnb, išskiria struktūrizuotą skelbimų informaciją ir nustato pigiausią apgyvendinimo variantą Stokholme.

Pamoka apjungia Browser-Use AI pagrįstai navigacijai, Playwright ir Chrome DevTools Protocol (CDP) naršyklės valdymui, Azure OpenAI su regėjimu pagrįstam samprotavimui, bei Pydantic struktūrizuotam išgavimui.

Įvadas

Šioje pamokoje aptarsime:

Kada kompiuteriniai naudojimosi agentai yra tinkamesni nei tik API pagrįsta automatizacija
Kaip derinti Browser-Use su Playwright ir CDP patikimam naršyklės gyvavimo ciklo valdymui
Kaip naudoti Azure OpenAI regėjimą ir struktūrizuotus Pydantic rezultatus norint išgauti skelbimų duomenis iš dinamiškų tinklalapių
Kada rinktis agentų pirmumo, veikėjų pirmumo ar hibridinį naršyklės automatizavimo darbo eigą

Mokymosi tikslai

Baigę šią pamoką, mokėsite:

Konfigūruoti Browser-Use su Azure OpenAI ir Playwright
Kurti naršyklės automatizavimo darbo eigą, kuri naviguoja tikroje svetainėje ir tvarko dinamiškus naudotojo sąsajos elementus
Išgauti tipizuotus rezultatus iš matomo puslapio turinio ir paversti juos verslo logika
Rinktis tarp agento ir veikėjo modelių, remiantis tuo, kiek naršyklės užduotis yra nuspėjama

Kodo pavyzdys

Pamoka apima vieną užrašų knygutę:

15-browser-user.ipynb: paleidžia Chrome sesiją per CDP, ieško Airbnb Stokholmo skelbimų, su Browser-Use regėjimu ištraukia kainas ir grąžina pigiausią variantą kaip struktūrizuotus duomenis.

Reikalavimai

Python 3.12+
Azure OpenAI diegimas sukonfigūruotas jūsų aplinkoje
Vietoje įdiegta Chrome arba Chromium naršyklė
Įdiegti Playwright priklausomybes
Pagrindinės žinios apie async Python

Diegimas

Įdiekite paketų rinkinius, naudojamus užrašų knygutėje:

pip install browser_use playwright python-dotenv
playwright install chromium

Nustatykite Azure OpenAI aplinkos kintamuosius, kuriuos naudoja užrašų knygutė:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Pasirenkama: jei nepateikta, numatytoji versija yra naujausia API versija
AZURE_OPENAI_API_VERSION=...

Architektūros apžvalga

Užrašų knygutė demonstruoja hibridinę naršyklės automatizavimo darbo eigą:

Chrome paleidžiamas su įjungtu CDP, kad Playwright ir Browser-Use galėtų naudoti tą pačią naršyklės sesiją.
Browser-Use agentas tvarko atviras navigacijos užduotis, tokias kaip Airbnb atidarymas, iššokančių langų uždarymas ir Stokholmo paieška.
Aktyvus puslapis tikrinamas naudojant struktūrizuotą Pydantic schemą, kuri ištraukia skelbimų pavadinimus, naktinių kainas, įvertinimus ir URL.
Python logika palygina ištrauktus skelbimus ir paryškina pigiausią variantą.

Šis požiūris išlaiko lanksčią, regėjimu pagrįstą samprotavimo galią, kuri būdinga Browser-Use, bet kartu suteikia deterministinę naršyklės kontrolę, kai jos reikia.

Pagrindiniai pastebėjimai ir geriausios praktikos

Kada naudoti agentą, o kada veikėją

Situacija	Naudoti agentą	Naudoti veikėją
Dinamiški dizainai	Taip, AI gali prisitaikyti prie puslapio pakeitimų	Ne, trapūs selektoriai gali sugesti
Žinoma struktūra	Ne, agentas yra lėtesnis už tiesioginę kontrolę	Taip, greita ir tiksli
Elementų radimas	Taip, natūrali kalba veikia gerai	Ne, reikia tikslių selektorių
Laiko kontrolė	Ne, mažiau nuspėjama	Taip, pilna valdymo galimybė laukti ir bandyti iš naujo
Sudėtingos darbo eigos	Taip, tvarko netikėtas UI būsenas	Ne, reikalauja aiškių šakų

Browser-Use geriausios praktikos

Pradėkite nuo agento tyrinėjimui ir dinamiškai navigacijai.
Pereikite prie tiesioginės puslapio kontrolės, kai sąveika tampa nuspėjama.
Naudokite struktūrizuotos išvesties modelius, kad išgauti duomenys būtų validuoti ir tipizuoti.
Strategiškai pridėkite delsą po veiksmų, kurie sukelia matomus UI pokyčius.
Fiksuokite ekrano nuotraukas iteracijos metu, kad būtų lengviau derinti klaidas.
Tikėkitės svetainių pokyčių ir sukurkite atsarginio plano strategijas iššokantiems langams ir dizaino pokyčiams.
Derinkite agentų ir veikėjų modelius, kad gautumėte tiek lankstumo, tiek tikslumo.

Realios taikymo sritys

Kelionių užsakymas ir kainų stebėjimas
El. prekybos kainų palyginimas ir prieinamumo tikrinimas
Struktūrizuotas duomenų išgavimas iš dinamiškų svetainių
Regėjimu pagrįsti UI testavimai ir patikrinimai
Svetainių stebėjimas ir įspėjimai
Išmanus formų pildymas kelių žingsnių procesuose

Papildomi ištekliai

Atsakomybės apribojimas:
Šis dokumentas buvo išverstas naudojant AI vertimo paslaugą Co-op Translator. Nors stengiamės užtikrinti tikslumą, prašome suprasti, kad automatiniai vertimai gali turėti klaidų ar netikslumų. Pirminis dokumentas gimtąja kalba turėtų būti laikomas autoritetingu šaltiniu. Svarbiai informacijai rekomenduojama naudoti profesionalų žmogišką vertimą. Mes neatsakome už bet kokius nesusipratimus ar neteisingą interpretavimą, atsiradusius naudojantis šiuo vertimu.

This site is open source. Improve this page.