ai-agents-for-beginners

Vytváření agentů pro používání počítače (CUA)

Agentů pro používání počítače mohou interagovat s webovými stránkami stejným způsobem jako člověk: otevřením prohlížeče, prohlížením stránky a vykonáním nejlepšího možného kroku na základě toho, co vidí. V této lekci vytvoříte automatizačního agenta, který vyhledá na Airbnb, extrahuje strukturovaná data o nabídkách a identifikuje nejlevnější ubytování ve Stockholmu.

Lekce kombinuje Browser-Use pro navigaci řízenou AI, Playwright a Chrome DevTools Protocol (CDP) pro ovládání prohlížeče, Azure OpenAI pro viděním podmíněné uvažování a Pydantic pro strukturovanou extrakci.

Úvod

V této lekci se naučíte:

Kdy jsou agenti používající počítač vhodnější než automaty založené pouze na API
Kombinaci Browser-Use s Playwright a CDP pro spolehlivou správu životního cyklu prohlížeče
Použití Azure OpenAI vidění a strukturovaného výstupu Pydantic pro extrakci dat o nabídkách z dynamických webových stránek
Rozhodování, kdy použít workflow orientované na agenta, na aktora, nebo hybridní automatizaci prohlížeče

Cíle učení

Po dokončení této lekce budete umět:

Nakonfigurovat Browser-Use s Azure OpenAI a Playwright
Vytvořit workflow automatizace prohlížeče, který prochází skutečnou webovou stránku a zvládá dynamické prvky UI
Extrahovat typované výsledky z viditelného obsahu stránky a převádět je do následující obchodní logiky
Vybrat mezi vzory agent a aktor podle toho, jak předvídatelný je úkol v prohlížeči

Ukázka kódu

Tato lekce obsahuje jeden tutoriál ve formě notebooku:

15-browser-user.ipynb: Spouští Chrome se zapnutým CDP, vyhledává na Airbnb nabídky ve Stockholmu, extrahuje ceny pomocí Browser-Use vidění a vrací nejlevnější možnost jako strukturovaná data.

Požadavky

Python 3.12+
Konfigurované nasazení Azure OpenAI ve vašem prostředí
Lokálně nainstalovaný Chrome nebo Chromium
Nainstalované závislosti Playwright
Základní znalost asynchronního Pythonu

Nastavení

Nainstalujte balíčky použité v notebooku:

pip install browser_use playwright python-dotenv
playwright install chromium

Nastavte proměnné prostředí Azure OpenAI, které používá notebook:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Volitelné: pokud není zadáno, použije se nejnovější verze API
AZURE_OPENAI_API_VERSION=...

Přehled architektury

Notebook demonstruje hybridní workflow automatizace prohlížeče:

Chrome je spuštěn s povoleným CDP, aby mohly Playwright i Browser-Use sdílet stejnou relaci prohlížeče.
Agent Browser-Use zpracovává úkoly otevřené navigace, jako je otevření Airbnb, zavření vyskakovacích oken a vyhledání Stockholmu.
Aktivní stránka je prozkoumána pomocí strukturované schématu Pydantic pro extrakci názvů nabídek, cen za noc, hodnocení a URL.
Pythonová logika porovná extrahované nabídky a zvýrazní nejlevnější výsledek.

Tento přístup zachovává flexibilní, vizí založené uvažování Browser-Use a zároveň poskytuje deterministickou kontrolu prohlížeče, když ji potřebujete.

Klíčové poznatky a osvědčené postupy

Kdy použít agenta vs aktora

Scénář	Použít agenta	Použít aktora
Dynamické rozvržení	Ano, AI se dokáže přizpůsobit změnám stránky	Ne, křehké selektory mohou selhat
Známá struktura	Ne, agent je pomalejší než přímá kontrola	Ano, rychlé a přesné
Hledání prvků	Ano, funguje přirozený jazyk	Ne, jsou potřeba přesné selektory
Řízení času	Ne, méně předvídatelné	Ano, plná kontrola nad čekáním a opakováním
Komplexní workflow	Ano, zvládá neočekávané stavy UI	Ne, vyžaduje explicitní větvení

Osvědčené postupy Browser-Use

Začněte s agentem pro průzkum a dynamickou navigaci.
Přejděte na přímou kontrolu stránky, když se interakce stane předvídatelnou.
Používejte strukturované výstupní modely, aby byla extrahovaná data validována a typově bezpečná.
Přidávejte zpoždění strategicky po akcích, které způsobují viditelné změny v uživatelském rozhraní.
Pořiďte snímky obrazovky během iterací, aby bylo snazší ladit chyby.
Počítejte s tím, že se webové stránky mění a navrhujte záložní strategie pro vyskakovací okna a posuny rozvržení.
Kombinujte vzory agent a aktor, abyste získali flexibilitu i přesnost.

Reálné aplikace

Rezervace cest a sledování cen
Porovnání cen a dostupnosti e-shopů
Strukturovaná extrakce z dynamických webů
Testování a ověřování UI s podporou vidění
Monitorování a upozornění na webu
Inteligentní vyplňování formulářů v multi-krokových procesech

Další zdroje

Prohlášení o odmítnutí odpovědnosti:
Tento dokument byl přeložen pomocí AI překladatelské služby Co-op Translator. I když se snažíme o přesnost, mějte prosím na paměti, že automatické překlady mohou obsahovat chyby nebo nepřesnosti. Originální dokument v jeho rodném jazyce by měl být považován za autoritativní zdroj. Pro důležité informace se doporučuje profesionální lidský překlad. Nepřebíráme odpovědnost za jakékoliv nedorozumění nebo nesprávné interpretace vyplývající z použití tohoto překladu.

This site is open source. Improve this page.