ai-agents-for-beginners

Construcción de Agentes de Uso de Computadora (CUA)

Los agentes de uso de computadora pueden interactuar con sitios web de la misma manera que lo haría una persona: abriendo un navegador, inspeccionando la página y tomando la mejor acción siguiente según lo que ven. En esta lección, construirás un agente de automatización de navegador que busca en Airbnb, extrae datos estructurados de listados e identifica la estadía más barata en Estocolmo.

La lección combina Browser-Use para navegación guiada por IA, Playwright y el Protocolo de Herramientas para Desarrolladores de Chrome (CDP) para el control del navegador, Azure OpenAI para razonamiento habilitado por visión y Pydantic para extracción estructurada.

Introducción

Esta lección cubrirá:

Objetivos de Aprendizaje

Después de completar esta lección, sabrás cómo:

Ejemplo de Código

Esta lección incluye un tutorial en notebook:

Requisitos Previos

Configuración

Instala los paquetes usados en el notebook:

pip install browser_use playwright python-dotenv
playwright install chromium

Configura las variables de entorno de Azure OpenAI usadas por el notebook:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Opcional: por defecto usa la versión más reciente de la API cuando se omite
AZURE_OPENAI_API_VERSION=...

Vista General de la Arquitectura

El notebook demuestra un flujo de trabajo de automatización de navegador híbrido:

  1. Chrome se inicia con CDP habilitado para que tanto Playwright como Browser-Use compartan la misma sesión de navegador.
  2. Un agente Browser-Use maneja tareas de navegación abiertas como abrir Airbnb, descartar ventanas emergentes y buscar Estocolmo.
  3. La página activa se inspecciona con un esquema estructurado de Pydantic para extraer títulos de listados, precios por noche, valoraciones y URLs.
  4. La lógica Python compara los listados extraídos y resalta el resultado más barato.

Este enfoque mantiene el razonamiento flexible basado en visión que Browser-Use domina mientras te permite un control determinista del navegador cuando lo necesitas.

Puntos Clave y Buenas Prácticas

Cuándo Usar Agente vs Actor

Escenario Usar Agente Usar Actor
Layouts dinámicos Sí, la IA puede adaptarse a cambios en la página No, selectores frágiles pueden romperse
Estructura conocida No, un agente es más lento que control directo Sí, rápido y preciso
Encontrar elementos Sí, el lenguaje natural funciona bien No, se requieren selectores exactos
Control de tiempo No, menos predecible Sí, control total sobre esperas y reintentos
Flujo de trabajo complejo Sí, maneja estados UI inesperados No, requiere ramificación explícita

Buenas Prácticas con Browser-Use

  1. Comienza con un agente para exploración y navegación dinámica.
  2. Cambia a control directo de página cuando la interacción sea predecible.
  3. Usa modelos de salida estructurada para validar y tipar los datos extraídos.
  4. Añade retardos estratégicamente después de acciones que desencadenen cambios visibles en la UI.
  5. Captura pantallazos durante la iteración para facilitar la depuración en caso de fallos.
  6. Espera que los sitios web cambien y diseña estrategias de respaldo para ventanas emergentes y cambios de layout.
  7. Mezcla los patrones agente y actor para obtener tanto flexibilidad como precisión.

Aplicaciones en el Mundo Real

Recursos Adicionales


Descargo de responsabilidad: Este documento ha sido traducido utilizando el servicio de traducción por IA Co-op Translator. Aunque nos esforzamos por la exactitud, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por un humano. No somos responsables por ningún malentendido o interpretación errónea que surja del uso de esta traducción.