ai-agents-for-beginners

Vytváření agentů pro používání počítače (CUA)

Agentů pro používání počítače mohou interagovat s webovými stránkami stejným způsobem jako člověk: otevřením prohlížeče, prohlížením stránky a vykonáním nejlepšího možného kroku na základě toho, co vidí. V této lekci vytvoříte automatizačního agenta, který vyhledá na Airbnb, extrahuje strukturovaná data o nabídkách a identifikuje nejlevnější ubytování ve Stockholmu.

Lekce kombinuje Browser-Use pro navigaci řízenou AI, Playwright a Chrome DevTools Protocol (CDP) pro ovládání prohlížeče, Azure OpenAI pro viděním podmíněné uvažování a Pydantic pro strukturovanou extrakci.

Úvod

V této lekci se naučíte:

Cíle učení

Po dokončení této lekce budete umět:

Ukázka kódu

Tato lekce obsahuje jeden tutoriál ve formě notebooku:

Požadavky

Nastavení

Nainstalujte balíčky použité v notebooku:

pip install browser_use playwright python-dotenv
playwright install chromium

Nastavte proměnné prostředí Azure OpenAI, které používá notebook:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Volitelné: pokud není zadáno, použije se nejnovější verze API
AZURE_OPENAI_API_VERSION=...

Přehled architektury

Notebook demonstruje hybridní workflow automatizace prohlížeče:

  1. Chrome je spuštěn s povoleným CDP, aby mohly Playwright i Browser-Use sdílet stejnou relaci prohlížeče.
  2. Agent Browser-Use zpracovává úkoly otevřené navigace, jako je otevření Airbnb, zavření vyskakovacích oken a vyhledání Stockholmu.
  3. Aktivní stránka je prozkoumána pomocí strukturované schématu Pydantic pro extrakci názvů nabídek, cen za noc, hodnocení a URL.
  4. Pythonová logika porovná extrahované nabídky a zvýrazní nejlevnější výsledek.

Tento přístup zachovává flexibilní, vizí založené uvažování Browser-Use a zároveň poskytuje deterministickou kontrolu prohlížeče, když ji potřebujete.

Klíčové poznatky a osvědčené postupy

Kdy použít agenta vs aktora

Scénář Použít agenta Použít aktora
Dynamické rozvržení Ano, AI se dokáže přizpůsobit změnám stránky Ne, křehké selektory mohou selhat
Známá struktura Ne, agent je pomalejší než přímá kontrola Ano, rychlé a přesné
Hledání prvků Ano, funguje přirozený jazyk Ne, jsou potřeba přesné selektory
Řízení času Ne, méně předvídatelné Ano, plná kontrola nad čekáním a opakováním
Komplexní workflow Ano, zvládá neočekávané stavy UI Ne, vyžaduje explicitní větvení

Osvědčené postupy Browser-Use

  1. Začněte s agentem pro průzkum a dynamickou navigaci.
  2. Přejděte na přímou kontrolu stránky, když se interakce stane předvídatelnou.
  3. Používejte strukturované výstupní modely, aby byla extrahovaná data validována a typově bezpečná.
  4. Přidávejte zpoždění strategicky po akcích, které způsobují viditelné změny v uživatelském rozhraní.
  5. Pořiďte snímky obrazovky během iterací, aby bylo snazší ladit chyby.
  6. Počítejte s tím, že se webové stránky mění a navrhujte záložní strategie pro vyskakovací okna a posuny rozvržení.
  7. Kombinujte vzory agent a aktor, abyste získali flexibilitu i přesnost.

Reálné aplikace

Další zdroje


Prohlášení o odmítnutí odpovědnosti:
Tento dokument byl přeložen pomocí AI překladatelské služby Co-op Translator. I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Originální dokument v jeho rodném jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Nepřebíráme odpovědnost za jakékoliv nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.