Создание агентов для использования компьютера (CUA)
Агенты для использования компьютера могут взаимодействовать с веб-сайтами так же, как человек: открывая браузер, осматривая страницу и выбирая следующее лучшее действие на основе увиденного. В этом уроке вы создадите агента автоматизации браузера, который ищет на Airbnb, извлекает структурированные данные объявлений и определяет самое дешевое жилье в Стокгольме.
Урок объединяет Browser-Use для навигации с поддержкой ИИ, Playwright и протокол Chrome DevTools (CDP) для управления браузером, Azure OpenAI для рассуждений с визуальной поддержкой и Pydantic для структурированного извлечения.
Введение
В этом уроке рассматриваются:
- Понимание, когда агенты для использования компьютера подходят лучше, чем автоматика только через API
- Сочетание Browser-Use с Playwright и CDP для надежного управления жизненным циклом браузера
- Использование Azure OpenAI с визуальной поддержкой и структурированного вывода с помощью Pydantic для извлечения данных объявлений с динамических веб-страниц
- Решение, когда использовать рабочий процесс автоматизации браузера с приоритетом агента, актера или гибридный
Цели обучения
После завершения этого урока вы научитесь:
- Настраивать Browser-Use с Azure OpenAI и Playwright
- Создавать рабочий процесс автоматизации браузера, который работает с реальным сайтом и обрабатывает динамические элементы интерфейса
- Извлекать типизированные результаты из видимого содержимого страниц и преобразовывать их в последующую бизнес-логику
- Выбирать между шаблонами агента и актера на основе предсказуемости задачи браузера
Пример кода
В этом уроке представлен один обучающий ноутбук:
- 15-browser-user.ipynb: Запускает сессию Chrome через CDP, ищет объявления Airbnb в Стокгольме, извлекает цены с помощью зрения Browser-Use и возвращает самый дешевый вариант в виде структурированных данных.
Требования
- Python 3.12+
- Развертывание Azure OpenAI, настроенное в вашей среде
- Chrome или Chromium, установленный локально
- Установленные зависимости Playwright
- Базовые знания асинхронного Python
Установка
Установите пакеты, используемые в ноутбуке:
pip install browser_use playwright python-dotenv
playwright install chromium
Установите переменные окружения Azure OpenAI, которые используются ноутбуком:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Необязательно: по умолчанию используется последняя версия API, если не указано
AZURE_OPENAI_API_VERSION=...
Обзор архитектуры
В ноутбуке демонстрируется гибридный рабочий процесс автоматизации браузера:
- Chrome запускается с включенным CDP, чтобы и Playwright, и Browser-Use могли использовать одну и ту же сессию браузера.
- Агент Browser-Use выполняет задачи навигации с открытым концом, такие как открытие Airbnb, закрытие всплывающих окон и поиск по Стокгольму.
- Активная страница анализируется с помощью структурированной схемы Pydantic для извлечения названий объявлений, цен за ночь, рейтингов и URL-адресов.
- Логика Python сравнивает извлеченные объявления и выделяет самый дешевый результат.
Такой подход сохраняет гибкость рассуждений с использованием зрения, которая характерна для Browser-Use, но при этом предоставляет детерминированное управление браузером, когда это необходимо.
Основные выводы и лучшие практики
Когда использовать агента vs актера
| Сценарий |
Использовать агента |
Использовать актера |
| Динамические макеты |
Да, ИИ может адаптироваться к изменениям страницы |
Нет, хрупкие селекторы могут ломаться |
| Известная структура |
Нет, агент медленнее прямого управления |
Да, быстро и точно |
| Поиск элементов |
Да, хорошо подходит естественный язык |
Нет, требуются точные селекторы |
| Контроль времени |
Нет, менее предсказуемо |
Да, полный контроль над ожиданиями и повторными попытками |
| Сложные рабочие процессы |
Да, обрабатывает неожиданные состояния UI |
Нет, требует явного ветвления |
Лучшие практики Browser-Use
- Начинайте с агента для исследований и динамической навигации.
- Переключайтесь на прямое управление страницей, когда взаимодействие становится предсказуемым.
- Используйте модели структурированного вывода, чтобы извлечённые данные были проверены и типобезопасны.
- Добавляйте задержки стратегически после действий, вызывающих видимые изменения UI.
- Делайте скриншоты во время итераций, чтобы упростить отладку сбоев.
- Ожидайте изменений на сайтах и проектируйте запасные стратегии для всплывающих окон и сдвигов макета.
- Сочетайте шаблоны агента и актера, чтобы получить и гибкость, и точность.
Применение в реальных задачах
- Бронирование путешествий и мониторинг цен
- Сравнение цен и проверка доступности в электронной коммерции
- Структурированное извлечение с динамических сайтов
- Тестирование UI с поддержкой зрения и верификация
- Мониторинг сайтов и оповещения
- Интеллектуальное заполнение форм в многоэтапных процессах
Дополнительные ресурсы
Отказ от ответственности:
Этот документ был переведен с помощью сервиса автоматического перевода Co-op Translator. Несмотря на наши усилия обеспечить точность, имейте в виду, что автоматический перевод может содержать ошибки или неточности. Оригинальный документ на его исходном языке следует считать авторитетным источником. Для важной информации рекомендуется обратиться к профессиональному переводу, выполненному человеком. Мы не несем ответственности за любые недоразумения или неправильные толкования, возникшие в результате использования данного перевода.