ai-agents-for-beginners

Számítógép-használó ügynökök (CUA) építése

A számítógép-használó ügynökök ugyanúgy képesek weboldalakkal interakcióba lépni, mint egy ember: megnyitnak egy böngészőt, megvizsgálják az oldalt, és a látottak alapján a legjobb következő lépést teszik meg. Ebben a leckében egy olyan böngészőautomatizálási ügynököt építesz, amely az Airbnb-n keres keresést, strukturált listázási adatokat nyer ki, és azonosítja a legolcsóbb szállást Stockholmban.

A lecke kombinálja a Browser-Use-t az AI-alapú navigációhoz, a Playwrightot és a Chrome DevTools Protocol (CDP)-t a böngésző vezérléséhez, az Azure OpenAI-t a látásalapú következtetéshez, valamint a Pydanticet a strukturált kinyeréshez.

Bevezetés

Ez a lecke a következőket fogja lefedni:

Tanulási célok

A lecke elvégzése után tudni fogod, hogyan:

Kódminta

A lecke tartalmaz egy jegyzetfüzet-alapú oktatóanyagot:

Előfeltételek

Beállítás

Telepítsd a jegyzetfüzetben használt csomagokat:

pip install browser_use playwright python-dotenv
playwright install chromium

Állítsd be a jegyzetfüzet által használt Azure OpenAI környezeti változókat:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Opcionális: alapértelmezett a legújabb API verzió, ha kihagyjuk
AZURE_OPENAI_API_VERSION=...

Architektúra áttekintése

A jegyzetfüzet egy hibrid böngészőautomatizálási munkafolyamatot mutat be:

  1. A Chrome CDP engedélyezéssel indul, így a Playwright és a Browser-Use meg tudják osztani ugyanazt a böngésző-munkamenetet.
  2. Egy Browser-Use ügynök végzi a nyitott navigációs feladatokat, mint az Airbnb megnyitása, felugró ablakok elvetése, és Stockholmi keresés.
  3. Az aktív oldalt strukturált Pydantic séma segítségével vizsgálják meg, hogy kinyerjék a listák címét, éjszakánkénti árait, értékeléseit és URL-jeit.
  4. Python logika összehasonlítja a kinyert listákat, és kiemeli a legolcsóbb találatot.

Ez a megközelítés megőrzi a Browser-Use által nyújtott rugalmas, látásalapú következtetést, miközben szükség esetén determinisztikus böngészővezérlést biztosít.

Főbb tanulságok és legjobb gyakorlatok

Mikor használjuk az ügynököt vagy a szereplőt

Forgatókönyv Ügynök használata Szereplő használata
Dinamikus elrendezések Igen, az AI képes alkalmazkodni az oldal változásaihoz Nem, a törékeny szelektorok eltörhetnek
Ismert szerkezet Nem, az ügynök lassabb, mint a közvetlen vezérlés Igen, gyors és pontos
Elemek keresése Igen, a természetes nyelv jól működik Nem, pontos szelektorok kellenek
Időzítés vezérlése Nem, kevésbé kiszámítható Igen, teljes kontroll a várakozások és újrapróbálkozások felett
Komplex munkafolyamatok Igen, kezeli a váratlan UI állapotokat Nem, explicit elágazást igényel

Browser-Use legjobb gyakorlatok

  1. Kezdj ügynökkel a felfedezéshez és dinamikus navigációhoz.
  2. Válts közvetlen oldalszintű vezérlésre, ha az interakció kiszámíthatóvá válik.
  3. Használj strukturált kimeneti modelleket, hogy a kinyert adatok validáltak és típus-biztosak legyenek.
  4. Strategikusan alkalmazz késleltetéseket olyan műveletek után, amelyek látható UI változásokat váltanak ki.
  5. Készíts képernyőképeket iterálás közben, hogy a hibák könnyebben hibakereshetők legyenek.
  6. Számíts rá, hogy a weboldalak változhatnak, és tervezz visszaesési stratégiákat a felugró ablakok és az elrendezésváltozások kezelésére.
  7. Keverd az ügynök és szereplő mintákat, hogy egyszerre kapj rugalmasságot és pontosságot.

Valós alkalmazások

További források


Felelősségkizárás:
Ezt a dokumentumot az AI fordító szolgáltatás Co-op Translator segítségével fordítottuk. Bár az pontosságra törekszünk, kérjük, vegye figyelembe, hogy az automatikus fordítások tartalmazhatnak hibákat vagy pontatlanságokat. Az eredeti dokumentum az anyanyelvén tekintendő hiteles forrásnak. Kritikus információk esetén javasolt a szakmai, emberi fordítás igénybevétele. Nem vállalunk felelősséget az ebből eredő félreértésekért vagy téves értelmezésekért.