ai-agents-for-beginners

Створення агентів для використання комп’ютера (CUA)

Агенти для використання комп’ютера можуть взаємодіяти з вебсайтами так само, як людина: відкриваючи браузер, переглядаючи сторінку та виконуючи наступну найкращу дію на основі побаченого. У цьому уроці ви створите агента автоматизації браузера, який шукатиме на Airbnb, витягуватиме структуровані дані оголошень і визначатиме найдешевше житло в Стокгольмі.

Урок поєднує Browser-Use для навігації з підтримкою ШІ, Playwright та Chrome DevTools Protocol (CDP) для керування браузером, Azure OpenAI для логічного аналізу з використанням зору та Pydantic для структурованого вилучення.

Вступ

У цьому уроці буде розглянуто:

Цілі навчання

Після завершення цього уроку ви навчитесь:

Приклад коду

У цьому уроці є один ноутбук із уроком:

Вимоги

Налаштування

Встановіть пакети, що використовуються у ноутбуці:

pip install browser_use playwright python-dotenv
playwright install chromium

Встановіть змінні середовища Azure OpenAI, які використовує ноутбук:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Необов’язково: за замовчуванням використовується остання версія API, якщо пропущено
AZURE_OPENAI_API_VERSION=...

Огляд архітектури

Ноутбук демонструє гібридний робочий процес автоматизації браузера:

  1. Chrome запускається з увімкненим CDP, щоб і Playwright, і Browser-Use могли працювати в одній сесії браузера.
  2. Агент Browser-Use виконує відкриту навігацію: відкрити Airbnb, закрити спливаючі вікна та шукати Стокгольм.
  3. Активна сторінка аналізується за допомогою структурованої схеми Pydantic для вилучення назв оголошень, цін за ніч, рейтингів і URL.
  4. Логіка Python порівнює витягнуті оголошення та виділяє найдешевший результат.

Цей підхід зберігає гнучке логічне мислення на основі зору, яке добре реалізоване в Browser-Use, але при цьому дає детермінований контроль браузера, коли це потрібно.

Основні висновки та найкращі практики

Коли використовувати агента або актора

Сценарій Використовувати агента Використовувати актора
Динамічні макети Так, ШІ адаптується до змін сторінки Ні, крихкі селектори можуть ламатися
Відома структура Ні, агент повільніший за прямий контроль Так, швидко і точно
Пошук елементів Так, природна мова добре працює Ні, потрібні точні селектори
Контроль часу Ні, менш передбачуваний Так, повний контроль над очікуваннями і повторними спробами
Складні робочі процеси Так, справляється з несподіваними станами UI Ні, вимагає явної логіки гілкування

Найкращі практики Browser-Use

  1. Розпочинайте з агента для дослідження й динамічної навігації.
  2. Перейдіть до прямого керування сторінкою, коли взаємодія стає передбачуваною.
  3. Використовуйте структуровані моделі виводу для валідації та типобезпечності витягнутих даних.
  4. Стратегічно додавайте затримки після дій, що викликають видимі зміни UI.
  5. Фіксуйте скріншоти під час ітерацій, щоб легше було відлагоджувати помилки.
  6. Очікуйте змін на сайтах і розробіть запасні стратегії для спливаючих вікон і зсувів верстки.
  7. Поєднуйте патерни агента і актора для гнучкості та точності.

Реальні застосування

Додаткові ресурси


Відмова від відповідальності: Цей документ був перекладений за допомогою сервісу автоматичного перекладу Co-op Translator. Незважаючи на наші зусилля забезпечити точність, зверніть увагу, що автоматичні переклади можуть містити помилки або неточності. Оригінальний документ рідною мовою слід вважати авторитетним джерелом. Для критичної інформації рекомендується професійний людський переклад. Ми не несемо відповідальності за будь-які непорозуміння або неправильні тлумачення, що виникли внаслідок використання цього перекладу.