Construir Agentes de Utilização de Computador (CUA)
Os agentes de utilização de computador podem interagir com sites da mesma forma que uma pessoa faria: abrindo um navegador, inspecionando a página e tomando a próxima melhor ação com base no que veem. Nesta lição, irá construir um agente de automação de navegador que pesquisa no Airbnb, extrai dados estruturados das listagens e identifica a estadia mais barata em Estocolmo.
A lição combina Browser-Use para navegação orientada por IA, Playwright e o Protocolo Chrome DevTools (CDP) para controlo do navegador, Azure OpenAI para raciocínio com visão integrada, e Pydantic para extração estruturada.
Introdução
Esta lição cobrirá:
- Compreender quando os agentes de utilização de computador são mais adequados do que a automação só via API
- Combinar Browser-Use com Playwright e CDP para uma gestão fiável do ciclo de vida do navegador
- Utilizar a visão Azure OpenAI e a saída estruturada Pydantic para extrair dados de listagens de páginas web dinâmicas
- Decidir quando usar um fluxo de trabalho de automação de navegador orientado ao agente, ao ator, ou híbrido
Objetivos de Aprendizagem
Após concluir esta lição, saberá como:
- Configurar Browser-Use com Azure OpenAI e Playwright
- Construir um fluxo de trabalho de automação de navegador que navega num site real e lida com elementos UI dinâmicos
- Extrair resultados tipados do conteúdo visível da página e transformá-los em lógica de negócio subsequente
- Escolher entre padrões de agente e ator com base na previsibilidade da tarefa no navegador
Exemplo de Código
Esta lição inclui um tutorial em notebook:
- 15-browser-user.ipynb: Lança uma sessão Chrome via CDP, pesquisa listagens em Estocolmo no Airbnb, extrai preços com a visão Browser-Use e devolve a opção mais barata como dados estruturados.
Requisitos
- Python 3.12+
- Implementação Azure OpenAI configurada no seu ambiente
- Chrome ou Chromium instalado localmente
- Dependências do Playwright instaladas
- Familiaridade básica com Python assíncrono
Configuração
Instale os pacotes usados no notebook:
pip install browser_use playwright python-dotenv
playwright install chromium
Defina as variáveis de ambiente Azure OpenAI usadas pelo notebook:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Opcional: utiliza a versão mais recente da API por omissão quando omitido
AZURE_OPENAI_API_VERSION=...
Visão Geral da Arquitetura
O notebook demonstra um fluxo de trabalho híbrido de automação de navegador:
- O Chrome inicia com CDP ativado para que tanto Playwright como Browser-Use possam partilhar a mesma sessão do navegador.
- Um agente Browser-Use gere tarefas de navegação abertas como abrir o Airbnb, dispensar pop-ups e pesquisar por Estocolmo.
- A página ativa é inspecionada com um esquema estruturado Pydantic para extrair títulos das listagens, preços por noite, classificações e URLs.
- A lógica Python compara as listagens extraídas e destaca a opção mais barata.
Esta abordagem mantém o raciocínio flexível baseado em visão que o Browser-Use domina, ao mesmo tempo que oferece controlo determinístico do navegador quando necessário.
Principais Lições e Melhores Práticas
Quando Usar Agente vs Ator
| Cenário |
Usar Agente |
Usar Ator |
| Layouts dinâmicos |
Sim, IA pode adaptar-se a mudanças na página |
Não, seletores frágeis podem falhar |
| Estrutura conhecida |
Não, um agente é mais lento do que controlo direto |
Sim, rápido e preciso |
| Encontrar elementos |
Sim, linguagem natural funciona bem |
Não, seletores exatos são necessários |
| Controlo de tempo |
Não, menos previsível |
Sim, controlo total sobre esperas e tentativas |
| Fluxos de trabalho complexos |
Sim, lida com estados UI inesperados |
Não, requer ramificações explícitas |
Melhores Práticas Browser-Use
- Comece com um agente para exploração e navegação dinâmica.
- Mude para controlo direto da página quando a interação se tornar previsível.
- Use modelos de saída estruturada para que os dados extraídos sejam validados e com tipos seguros.
- Adicione atrasos estrategicamente após ações que desencadeiem alterações visíveis na UI.
- Capture capturas de ecrã durante iterações para facilitar a depuração de falhas.
- Espere que os sites mudem e planeie estratégias de fallback para pop-ups e alterações de layout.
- Combine padrões de agente e ator para obter flexibilidade e precisão.
Aplicações no Mundo Real
- Reservas de viagens e monitorização de preços
- Comparação de preços em comércio eletrónico e verificação de disponibilidade
- Extração estruturada de websites dinâmicos
- Testes UI conscientes da visão e verificação
- Monitorização e alerta de websites
- Preenchimento inteligente de formulários em fluxos multi-etapa
Recursos Adicionais
Aviso Legal:
Este documento foi traduzido utilizando o serviço de tradução por IA Co-op Translator. Embora nos esforcemos pela precisão, esteja ciente de que traduções automáticas podem conter erros ou imprecisões. O documento original, na sua língua nativa, deve ser considerado a fonte oficial. Para informações críticas, recomenda-se tradução profissional humana. Não nos responsabilizamos por quaisquer mal-entendidos ou interpretações incorretas resultantes da utilização desta tradução.