Створення агентів для використання комп’ютера (CUA)
Агенти для використання комп’ютера можуть взаємодіяти з вебсайтами так само, як людина: відкриваючи браузер, переглядаючи сторінку та виконуючи наступну найкращу дію на основі побаченого. У цьому уроці ви створите агента автоматизації браузера, який шукатиме на Airbnb, витягуватиме структуровані дані оголошень і визначатиме найдешевше житло в Стокгольмі.
Урок поєднує Browser-Use для навігації з підтримкою ШІ, Playwright та Chrome DevTools Protocol (CDP) для керування браузером, Azure OpenAI для логічного аналізу з використанням зору та Pydantic для структурованого вилучення.
Вступ
У цьому уроці буде розглянуто:
- Розуміння, коли агенти для використання комп’ютера підходять краще за автоматизацію тільки через API
- Поєднання Browser-Use з Playwright і CDP для надійного керування життєвим циклом браузера
- Використання зору Azure OpenAI та структурованого виводу Pydantic для вилучення даних про оголошення зі динамічних вебсторінок
- Визначення, коли застосовувати агентно-орієнтований, акторно-орієнтований чи гібридний робочий процес автоматизації браузера
Цілі навчання
Після завершення цього уроку ви навчитесь:
- Налаштовувати Browser-Use з Azure OpenAI і Playwright
- Створювати робочий процес автоматизації браузера, що переходить по реальному сайту й працює з динамічними елементами інтерфейсу
- Витягувати типізовані результати з видимого контенту сторінки і перетворювати їх у подальшу бізнес-логіку
- Обирати між патернами агента і актора в залежності від передбачуваності задачі у браузері
Приклад коду
У цьому уроці є один ноутбук із уроком:
- 15-browser-user.ipynb: Запускає сесію Chrome через CDP, шукає оголошення Стокгольма на Airbnb, витягує ціни за допомогою зору Browser-Use та повертає найдешевший варіант як структуровані дані.
Вимоги
- Python 3.12+
- Налаштоване розгортання Azure OpenAI у вашому середовищі
- Локально встановлений Chrome або Chromium
- Встановлені залежності Playwright
- Базове знання асинхронного Python
Налаштування
Встановіть пакети, що використовуються у ноутбуці:
pip install browser_use playwright python-dotenv
playwright install chromium
Встановіть змінні середовища Azure OpenAI, які використовує ноутбук:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Необов’язково: за замовчуванням використовується остання версія API, якщо пропущено
AZURE_OPENAI_API_VERSION=...
Огляд архітектури
Ноутбук демонструє гібридний робочий процес автоматизації браузера:
- Chrome запускається з увімкненим CDP, щоб і Playwright, і Browser-Use могли працювати в одній сесії браузера.
- Агент Browser-Use виконує відкриту навігацію: відкрити Airbnb, закрити спливаючі вікна та шукати Стокгольм.
- Активна сторінка аналізується за допомогою структурованої схеми Pydantic для вилучення назв оголошень, цін за ніч, рейтингів і URL.
- Логіка Python порівнює витягнуті оголошення та виділяє найдешевший результат.
Цей підхід зберігає гнучке логічне мислення на основі зору, яке добре реалізоване в Browser-Use, але при цьому дає детермінований контроль браузера, коли це потрібно.
Основні висновки та найкращі практики
Коли використовувати агента або актора
| Сценарій |
Використовувати агента |
Використовувати актора |
| Динамічні макети |
Так, ШІ адаптується до змін сторінки |
Ні, крихкі селектори можуть ламатися |
| Відома структура |
Ні, агент повільніший за прямий контроль |
Так, швидко і точно |
| Пошук елементів |
Так, природна мова добре працює |
Ні, потрібні точні селектори |
| Контроль часу |
Ні, менш передбачуваний |
Так, повний контроль над очікуваннями і повторними спробами |
| Складні робочі процеси |
Так, справляється з несподіваними станами UI |
Ні, вимагає явної логіки гілкування |
Найкращі практики Browser-Use
- Розпочинайте з агента для дослідження й динамічної навігації.
- Перейдіть до прямого керування сторінкою, коли взаємодія стає передбачуваною.
- Використовуйте структуровані моделі виводу для валідації та типобезпечності витягнутих даних.
- Стратегічно додавайте затримки після дій, що викликають видимі зміни UI.
- Фіксуйте скріншоти під час ітерацій, щоб легше було відлагоджувати помилки.
- Очікуйте змін на сайтах і розробіть запасні стратегії для спливаючих вікон і зсувів верстки.
- Поєднуйте патерни агента і актора для гнучкості та точності.
Реальні застосування
- Бронювання подорожей та моніторинг цін
- Порівняння цін в електронній комерції та перевірка наявності
- Структуроване вилучення з динамічних вебсайтів
- Тестування та перевірка UI з урахуванням зору
- Моніторинг сайтів і надсилання сповіщень
- Інтелектуальне заповнення форм у багатокрокових процесах
Додаткові ресурси
Відмова від відповідальності:
Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Незважаючи на наші зусилля забезпечити точність, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.