ai-agents-for-beginners

Computer Use Agents (CUA) Bouwen

Computer use agents kunnen op websites reageren zoals een persoon dat zou doen: door een browser te openen, de pagina te inspecteren en de beste volgende actie te ondernemen op basis van wat ze zien. In deze les bouw je een browserautomatiseringsagent die zoekt op Airbnb, gestructureerde listinggegevens extraheert en de goedkoopste verblijfplaats in Stockholm identificeert.

De les combineert Browser-Use voor AI-gedreven navigatie, Playwright en Chrome DevTools Protocol (CDP) voor browsercontrole, Azure OpenAI voor visueel ondersteund redeneren en Pydantic voor gestructureerde extractie.

Introductie

Deze les behandelt:

Leerdoelen

Na het voltooien van deze les weet je hoe je:

Voorbeeldcode

Deze les bevat één notebook tutorial:

Vereisten

Setup

Installeer de pakketten die in de notebook gebruikt worden:

pip install browser_use playwright python-dotenv
playwright install chromium

Stel de Azure OpenAI omgevingsvariabelen in die de notebook gebruikt:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Optioneel: standaard wordt de nieuwste API-versie gebruikt als deze wordt weggelaten
AZURE_OPENAI_API_VERSION=...

Architectuuroverzicht

De notebook demonstreert een hybride browserautomatiseringsworkflow:

  1. Chrome start met CDP ingeschakeld zodat zowel Playwright als Browser-Use dezelfde browsersessie kunnen delen.
  2. Een Browser-Use agent handelt open navigatietaken af zoals Airbnb openen, pop-ups sluiten en zoeken naar Stockholm.
  3. De actieve pagina wordt geïnspecteerd met een gestructureerd Pydantic-schema om listingtitels, nachtelijke prijzen, beoordelingen en URL’s te extraheren.
  4. Pythonlogica vergelijkt de geëxtraheerde listings en markeert het goedkoopste resultaat.

Deze aanpak behoudt het flexibele, op visie gebaseerde redeneren waar Browser-Use sterk in is, terwijl je toch deterministische browsercontrole hebt wanneer nodig.

Belangrijkste Leerpunten en Best Practices

Wanneer Agent versus Actor gebruiken

Scenario Agent gebruiken Actor gebruiken
Dynamische lay-outs Ja, AI kan zich aanpassen aan pagina-aanpassingen Nee, fragiele selectors kunnen breken
Bekende structuur Nee, een agent is trager dan directe controle Ja, snel en nauwkeurig
Elementen vinden Ja, natuurlijke taal werkt goed Nee, exacte selectors zijn vereist
Timing controle Nee, minder voorspelbaar Ja, volledige controle over wachten en herhaling
Complexe workflows Ja, kan onverwachte UI-staten verwerken Nee, vereist expliciete vertakkingen

Browser-Use Best Practices

  1. Begin met een agent voor verkenning en dynamische navigatie.
  2. Schakel over naar directe paginacontrole zodra de interactie voorspelbaar wordt.
  3. Gebruik gestructureerde outputmodellen zodat geëxtraheerde data gevalideerd en type-safe is.
  4. Voeg strategisch vertragingen toe na acties die zichtbare UI-veranderingen triggeren.
  5. Maak screenshots tijdens iteraties zodat fouten makkelijker te debuggen zijn.
  6. Verwacht dat websites veranderen en ontwerp fallbackstrategieën voor pop-ups en layoutverschuivingen.
  7. Combineer agent- en actorpatronen voor zowel flexibiliteit als precisie.

Praktische Toepassingen

Aanvullende Bronnen


Disclaimer: Dit document is vertaald met behulp van de AI-vertalingsdienst Co-op Translator. Hoewel wij streven naar nauwkeurigheid, dient u er rekening mee te houden dat geautomatiseerde vertalingen fouten of onnauwkeurigheden kunnen bevatten. Het oorspronkelijke document in de oorspronkelijke taal moet als de gezaghebbende bron worden beschouwd. Voor kritieke informatie wordt een professionele menselijke vertaling aanbevolen. Wij zijn niet aansprakelijk voor eventuele misverstanden of verkeerde interpretaties voortvloeiend uit het gebruik van deze vertaling.