ai-agents-for-beginners

Создание агентов для использования компьютера (CUA)

Агенты для использования компьютера могут взаимодействовать с веб-сайтами так же, как человек: открывая браузер, осматривая страницу и выбирая следующее лучшее действие на основе увиденного. В этом уроке вы создадите агента автоматизации браузера, который ищет на Airbnb, извлекает структурированные данные объявлений и определяет самое дешевое жилье в Стокгольме.

Урок объединяет Browser-Use для навигации с поддержкой ИИ, Playwright и протокол Chrome DevTools (CDP) для управления браузером, Azure OpenAI для рассуждений с визуальной поддержкой и Pydantic для структурированного извлечения.

Введение

В этом уроке рассматриваются:

Цели обучения

После завершения этого урока вы научитесь:

Пример кода

В этом уроке представлен один обучающий ноутбук:

Требования

Установка

Установите пакеты, используемые в ноутбуке:

pip install browser_use playwright python-dotenv
playwright install chromium

Установите переменные окружения Azure OpenAI, которые используются ноутбуком:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Необязательно: по умолчанию используется последняя версия API, если не указано
AZURE_OPENAI_API_VERSION=...

Обзор архитектуры

В ноутбуке демонстрируется гибридный рабочий процесс автоматизации браузера:

  1. Chrome запускается с включенным CDP, чтобы и Playwright, и Browser-Use могли использовать одну и ту же сессию браузера.
  2. Агент Browser-Use выполняет задачи навигации с открытым концом, такие как открытие Airbnb, закрытие всплывающих окон и поиск по Стокгольму.
  3. Активная страница анализируется с помощью структурированной схемы Pydantic для извлечения названий объявлений, цен за ночь, рейтингов и URL-адресов.
  4. Логика Python сравнивает извлеченные объявления и выделяет самый дешевый результат.

Такой подход сохраняет гибкость рассуждений с использованием зрения, которая характерна для Browser-Use, но при этом предоставляет детерминированное управление браузером, когда это необходимо.

Основные выводы и лучшие практики

Когда использовать агента vs актера

Сценарий Использовать агента Использовать актера
Динамические макеты Да, ИИ может адаптироваться к изменениям страницы Нет, хрупкие селекторы могут ломаться
Известная структура Нет, агент медленнее прямого управления Да, быстро и точно
Поиск элементов Да, хорошо подходит естественный язык Нет, требуются точные селекторы
Контроль времени Нет, менее предсказуемо Да, полный контроль над ожиданиями и повторными попытками
Сложные рабочие процессы Да, обрабатывает неожиданные состояния UI Нет, требует явного ветвления

Лучшие практики Browser-Use

  1. Начинайте с агента для исследований и динамической навигации.
  2. Переключайтесь на прямое управление страницей, когда взаимодействие становится предсказуемым.
  3. Используйте модели структурированного вывода, чтобы извлечённые данные были проверены и типобезопасны.
  4. Добавляйте задержки стратегически после действий, вызывающих видимые изменения UI.
  5. Делайте скриншоты во время итераций, чтобы упростить отладку сбоев.
  6. Ожидайте изменений на сайтах и проектируйте запасные стратегии для всплывающих окон и сдвигов макета.
  7. Сочетайте шаблоны агента и актера, чтобы получить и гибкость, и точность.

Применение в реальных задачах

Дополнительные ресурсы


Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия обеспечить точность, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для важной информации рекомендуется обратиться к профессиональному переводу, выполненному человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.