ai-agents-for-beginners

Bygning af Computer Use Agents (CUA)

Computer use agents kan interagere med websites på samme måde som en person: ved at åbne en browser, inspicere siden og tage den næste bedste handling ud fra det, de ser. I denne lektion vil du bygge en browser-automationsagent, der søger på Airbnb, udtrækker strukturerede listingsdata og identificerer det billigste ophold i Stockholm.

Lektionen kombinerer Browser-Use til AI-drevet navigation, Playwright og Chrome DevTools Protocol (CDP) til browserkontrol, Azure OpenAI til synsbaseret ræsonnering og Pydantic til struktureret udtrækning.

Introduktion

Denne lektion dækker:

Læringsmål

Efter at have gennemført denne lektion vil du vide, hvordan du:

Kodeeksempel

Denne lektion inkluderer én notebook-tutorial:

Forudsætninger

Opsætning

Installer de pakker, der bruges i notebogen:

pip install browser_use playwright python-dotenv
playwright install chromium

Sæt Azure OpenAI miljøvariablerne, der bruges af notebogen:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Valgfrit: standardværdien er den seneste API-version, hvis udeladt
AZURE_OPENAI_API_VERSION=...

Arkitekturoversigt

Notebogen demonstrerer en hybrid browserautomationsworkflow:

  1. Chrome startes med CDP aktiveret, så både Playwright og Browser-Use kan dele den samme browsersession.
  2. En Browser-Use agent håndterer åbne navigationopgaver som at åbne Airbnb, afvise pop-ups og søge efter Stockholm.
  3. Den aktive side inspiceres med et struktureret Pydantic-schema for at udtrække listingtitler, natlige priser, vurderinger og URLs.
  4. Python-logik sammenligner de udtrukne listings og fremhæver det billigste resultat.

Denne tilgang bevarer den fleksible, vision-baserede ræsonnering, som Browser-Use er god til, samtidig med at du får deterministisk browserkontrol, når du har brug for det.

Vigtige konklusioner og bedste praksis

Hvornår bruges Agent vs Actor

Scenario Brug Agent Brug Actor
Dynamiske layouts Ja, AI kan tilpasse sig sideskift Nej, skrøbelige selektorer kan bryde
Kendt struktur Nej, en agent er langsommere end direkte kontrol Ja, hurtig og præcis
Find elementer Ja, naturligt sprog fungerer godt Nej, nøjagtige selektorer kræves
Tidsstyring Nej, mindre forudsigelig Ja, fuld kontrol over ventetider og retries
Komplekse workflows Ja, håndterer uventede UI-tilstande Nej, kræver eksplicit branching

Browser-Use bedste praksis

  1. Start med en agent til udforskning og dynamisk navigation.
  2. Skift til direkte sidekontrol når interaktionen bliver forudsigelig.
  3. Brug strukturerede outputmodeller så udtrukne data valideres og er typesikre.
  4. Tilføj forsinkelser strategisk efter handlinger, der udløser synlige UI-ændringer.
  5. Tag skærmbilleder under iterationer for lettere fejlfinding.
  6. Forvent, at websites ændrer sig og design fallback-strategier til pop-ups og layoutskift.
  7. Bland agent- og actor-mønstre for at opnå både fleksibilitet og præcision.

Anvendelser i virkeligheden

Yderligere ressourcer


Ansvarsfraskrivelse:
Dette dokument er blevet oversat ved hjælp af AI-oversættelsestjenesten Co-op Translator. Selvom vi stræber efter nøjagtighed, bedes du være opmærksom på, at automatiserede oversættelser kan indeholde fejl eller unøjagtigheder. Det oprindelige dokument på dets modersmål bør betragtes som den autoritative kilde. For kritisk information anbefales professionel menneskelig oversættelse. Vi påtager os intet ansvar for misforståelser eller fejltolkninger, der opstår som følge af brugen af denne oversættelse.