ai-agents-for-beginners

Creazione di Agenti per l’Uso del Computer (CUA)

Gli agenti per l’uso del computer possono interagire con i siti web nello stesso modo di una persona: aprendo un browser, ispezionando la pagina e prendendo la migliore azione successiva da ciò che vedono. In questa lezione, costruirai un agente di automazione del browser che cerca su Airbnb, estrae dati strutturati degli annunci e identifica il soggiorno più economico a Stoccolma.

La lezione combina Browser-Use per la navigazione guidata dall’IA, Playwright e il Chrome DevTools Protocol (CDP) per il controllo del browser, Azure OpenAI per il ragionamento abilitato alla visione e Pydantic per l’estrazione strutturata.

Introduzione

Questa lezione tratterà:

Obiettivi di Apprendimento

Dopo aver completato questa lezione, saprai come:

Esempio di Codice

Questa lezione include un tutorial in notebook:

Prerequisiti

Setup

Installa i pacchetti usati nel notebook:

pip install browser_use playwright python-dotenv
playwright install chromium

Imposta le variabili d’ambiente Azure OpenAI usate dal notebook:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Facoltativo: usa per default l'ultima versione dell'API quando viene omesso
AZURE_OPENAI_API_VERSION=...

Panoramica dell’Architettura

Il notebook dimostra un flusso di lavoro ibrido di automazione del browser:

  1. Chrome si avvia con CDP abilitato così sia Playwright sia Browser-Use possono condividere la stessa sessione del browser.
  2. Un agente Browser-Use gestisce compiti di navigazione aperti come aprire Airbnb, chiudere pop-up e cercare Stoccolma.
  3. La pagina attiva viene ispezionata con uno schema Pydantic strutturato per estrarre titoli degli annunci, prezzi per notte, valutazioni e URL.
  4. La logica Python confronta gli annunci estratti e evidenzia il risultato più economico.

Questo approccio mantiene il ragionamento flessibile basato sulla visione, per cui Browser-Use è efficace, garantendo comunque un controllo deterministico del browser quando necessario.

Punti Chiave e Best Practice

Quando Usare Agent vs Actor

Scenario Usa Agent Usa Actor
Layout dinamici Sì, l’IA si adatta ai cambiamenti della pagina No, i selettori fragili possono rompersi
Struttura nota No, un agente è più lento del controllo diretto Sì, veloce e preciso
Trovare elementi Sì, il linguaggio naturale funziona bene No, servono selettori esatti
Controllo temporale No, meno prevedibile Sì, controllo completo di attese e ritentativi
Flussi complessi Sì, gestisce stati UI imprevisti No, richiede ramificazioni esplicite

Best Practice per Browser-Use

  1. Inizia con un agente per esplorazione e navigazione dinamica.
  2. Passa al controllo diretto della pagina quando l’interazione diventa prevedibile.
  3. Usa modelli di output strutturati così i dati estratti sono validati e tipizzati.
  4. Aggiungi ritardi strategici dopo azioni che attivano cambiamenti UI visibili.
  5. Cattura screenshot mentre iteri così gli errori sono più facili da debug.
  6. Aspettati che i siti cambino e progetta strategie di fallback per pop-up e cambi di layout.
  7. Combina pattern agent e actor per ottenere flessibilità e precisione.

Applicazioni nel Mondo Reale

Risorse Aggiuntive


Disclaimer: Questo documento è stato tradotto utilizzando il servizio di traduzione AI Co-op Translator. Sebbene ci impegniamo per l’accuratezza, si prega di essere consapevoli che le traduzioni automatiche possono contenere errori o imprecisioni. Il documento originale nella sua lingua nativa deve essere considerato la fonte autorevole. Per informazioni critiche, è consigliata una traduzione professionale umana. Non siamo responsabili per eventuali malintesi o interpretazioni errate derivanti dall’uso di questa traduzione.