Създаване на агент за използване на компютър (CUA)
Агентите за използване на компютър могат да взаимодействат с уебсайтове по същия начин, по който би го направил човек: като отворят браузър, разгледат страницата и предприемат най-доброто следващо действие въз основа на това, което виждат. В този урок ще създадете агент за автоматизация на браузър, който търси в Airbnb, извлича структурирани данни за обяви и идентифицира най-евтиното място за престой в Стокхолм.
Урокът съчетава Browser-Use за навигация, управлявана от AI, Playwright и Chrome DevTools Protocol (CDP) за контрол на браузъра, Azure OpenAI за разсъждения с включено зрение и Pydantic за структурирано извличане.
Въведение
В този урок ще научите:
- Кога агентите за използване на компютър са по-подходящи от автоматизация само чрез API
- Как да комбинирате Browser-Use с Playwright и CDP за надеждно управление на жизнения цикъл на браузъра
- Как да използвате Azure OpenAI визия и структурирания Pydantic изход за извличане на данни за обяви от динамични уеб страници
- Как да решите кога да използвате работен процес, основан на агент, актьор или хибридна автоматизация на браузъра
Цели на обучението
След завършване на тази практика, ще можете да:
- Конфигурирате Browser-Use с Azure OpenAI и Playwright
- Създадете работен процес за автоматизация на браузър, който навигира в реален уебсайт и обработва динамични UI елементи
- Извличате типизирани резултати от видимото съдържание на страницата и ги превръщате в последваща бизнес логика
- Избирате между модели agent и actor въз основа на това колко прогнозируема е задачата в браузъра
Примерен код
Този урок включва един учебен бележник:
- 15-browser-user.ipynb: Стартира Chrome сесия чрез CDP, търси обяви в Airbnb за Стокхолм, извлича цени с помощта на Browser-Use vision и връща най-евтиния вариант като структурирани данни.
Изисквания
- Python 3.12+
- Конфигурирано Azure OpenAI разгръщане във вашата среда
- Локално инсталиран Chrome или Chromium
- Инсталирани зависимости на Playwright
- Основни познания по async Python
Настройка
Инсталирайте пакетите, използвани в учебния бележник:
pip install browser_use playwright python-dotenv
playwright install chromium
Задайте променливите на средата за Azure OpenAI, използвани от бележника:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# По избор: по подразбиране използва най-новата версия на API при пропускане
AZURE_OPENAI_API_VERSION=...
Преглед на архитектурата
Бележникът демонстрира хибриден работен процес за автоматизация на браузър:
- Chrome се стартира с активиран CDP, така че както Playwright, така и Browser-Use да могат да споделят една и съща сесия на браузъра.
- Агент на Browser-Use се грижи за отворена навигация, като отваряне на Airbnb, затваряне на изскачащи прозорци и търсене на Стокхолм.
- Активната страница се инспектира със структурирана Pydantic схема, за да се извлекат заглавия на обяви, нощни цени, рейтинги и URL адреси.
- Python логика сравнява извлечените обяви и откроява най-евтиния резултат.
Този подход запазва гъвкавото, основано на зрение разсъждаване, в което Browser-Use е добър, като същевременно ви предоставя детерминиран контрол върху браузъра, когато имате нужда от него.
Основни изводи и добри практики
Кога да използвате агент и кога – актьор
| Сценарий |
Използвайте агент |
Използвайте актьор |
| Динамични оформления |
Да, AI може да се адаптира към промени в страницата |
Не, крехките селектори могат да се счупят |
| Известна структура |
Не, агентът е по-бавен от директния контрол |
Да, бърз и прецизен |
| Намиране на елементи |
Да, естественият език работи добре |
Не, изискват се точни селектори |
| Контрол на времето |
Не, по-малко предсказуемо |
Да, пълен контрол върху изчаквания и повторни опити |
| Комплексни работни потоци |
Да, справя се с неочаквани състояния на UI |
Не, изисква явни разклонения |
Добри практики за Browser-Use
- Започнете с агент за проучване и динамична навигация.
- Превключете към директен контрол на страницата, когато взаимодействието стане предсказуемо.
- Използвайте структурирани модели за изход, за да се гарантира валидиране и типова безопасност на извлечените данни.
- Добавяйте забавяния стратегически след действия, които задействат видими промени в UI.
- Правете скрийншотове по време на итерации, за да улесните отстраняването на грешки при неуспехи.
- Очаквайте уебсайтовете да се променят и проектирайте резервни стратегии за изскачащи прозорци и смени в оформлението.
- Смесвайте модели агент и актьор, за да получите както гъвкавост, така и прецизност.
Приложения в реалния свят
- Резервация на пътувания и мониторинг на цени
- Сравнение на цени и проверка на наличности в електронна търговия
- Структурирано извличане от динамични уебсайтове
- Тестване и верификация на UI с помощта на визия
- Мониторинг и предупреждения за уебсайтове
- Интелигентно попълване на формуляри в множество стъпки
Допълнителни ресурси
Отказ от отговорност:
Този документ е преведен с помощта на AI преводаческа услуга Co-op Translator. Въпреки че се стремим към точност, моля, имайте предвид, че автоматизираните преводи могат да съдържат грешки или неточности. Оригиналният документ на неговия роден език трябва да се счита за авторитетен източник. За критична информация се препоръчва професионален човешки превод. Ние не носим отговорност за каквито и да е недоразумения или неправилни тълкувания, произтичащи от използването на този превод.