ai-agents-for-beginners

Израда агената за коришћење рачунара (CUA)

Агенти за коришћење рачунара могу да комуницирају са веб сајтовима на исти начин као и људи: отварају прегледач, прегледају страницу и предузимају следећу најбољу акцију на основу онога што виде. У овој лекцији направићете агента за аутоматизацију прегледача који претражује Airbnb, извлачи структуриране податке о огласима и идентификује најјефтинији смештај у Стокхолму.

Лекција комбинује Browser-Use за навигацију вођену вештачком интелигенцијом, Playwright и Chrome DevTools Protocol (CDP) за контролу прегледача, Azure OpenAI за резоновање омогућено визијом, и Pydantic за структурирани екстракт.

Увод

Ова лекција ће обухватити:

Циљеви учења

Након завршетка ове лекције, знаћете како да:

Пример кода

Ова лекција садржи један туторијал у форме свеске:

Претпоставке

Подешавање

Инсталирајте пакете коришћене у свесци:

pip install browser_use playwright python-dotenv
playwright install chromium

Подесите Azure OpenAI системске променљиве окружења које користи свеска:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Опционо: подразумева се најновија верзија API-ја када се прескочи
AZURE_OPENAI_API_VERSION=...

Преглед архитектуре

Свеска демонстрира хибридни радни ток аутоматизације прегледача:

  1. Chrome се покреће са омогућеним CDP-ом како би и Playwright и Browser-Use могли да деле исту сесију прегледача.
  2. Browser-Use агент управља отвореним навигационим задацима као што су отварање Airbnb веб сајта, уклањање искачућих прозора и претрага за Стокхолм.
  3. Активна страница се прегледа структурираним Pydantic шемама како би се извукли наслови огласа, ноћне цене, оцена и URL-ови.
  4. Python логика упоређује издвојене огласе и истиче најјефтинију понуду.

Овај приступ задржава флексибилност резоновања заснованог на визији коју Browser-Use поседује, а истовремено пружа детерминистичку контролу над прегледачем када вам је потребна.

Кључне поуке и најбоље праксе

Када користити агента, а када глумца

Сценарио Користите агента Користите глумца
Динамички распореди Да, вештачка интелигенција се може прилагодити променама на страници Не, крхки селектори могу да прекину поступак
Позната структура Не, агент је спорији од директне контроле Да, брз и прецизан
Пронаћи елементе Да, природни језик добро функционише Не, потребни су прецизни селектори
Контрола времена Не, мање је предвидљиво Да, пуна контрола над чекањима и поновним покушајима
Комплексни радни токови Да, рукује неочекиваним стањима у корисничком интерфејсу Не, потребно је експлицитно грануљање

Најбоље праксе Browser-Use

  1. Почните са агентом за истраживање и динамичку навигацију.
  2. Прелазите на директну контролу странице када интеракција постане предвидива.
  3. Користите моделе структурисаног излаза како би издвојени подаци били верификовани и типски безбедни.
  4. Додајте задатке са кашњењима након радњи које покрећу видљиве промене у корисничком интерфејсу.
  5. Снимајте слике екрана током итерација како би неуспеси били лакши за дијагнозу.
  6. Очекујте промене на веб сајтовима и направите резервне стратегије за искачуће прозоре и промене распореда.
  7. Комбинујте агент и глумац шаблоне да бисте добили и флексибилност и прецизност.

Примери у стварном свету

Додатни ресурси


Изјава о одрицању одговорности:
Овај документ је преведен коришћењем АИ сервиса за превођење Co-op Translator. Иако се трудимо да превод буде прецизан, имајте у виду да аутоматски преводи могу садржати грешке или нетачности. Оригинални документ на његовом изворном језику треба сматрати ауторитетом. За критичне информације препоручује се стручан људски превод. Нисмо одговорни за било какве неспоразуме или погрешне тумачења настале коришћењем овог превода.