ai-agents-for-beginners

Budowanie Agentów do Użytkowania Komputera (CUA)

Agenci do użytkowania komputera mogą wchodzić w interakcje ze stronami internetowymi tak, jak robiłaby to osoba: otwierając przeglądarkę, analizując stronę i podejmując kolejną najlepszą akcję na podstawie tego, co widzą. W tej lekcji zbudujesz agenta automatyzującego przeglądarkę, który wyszukuje na Airbnb, wyodrębnia strukturalne dane ofert i identyfikuje najtańszy pobyt w Sztokholmie.

Lekcja łączy Browser-Use do nawigacji sterowanej przez AI, Playwright i Chrome DevTools Protocol (CDP) do kontroli przeglądarki, Azure OpenAI do rozumowania wspieranego wzrokiem oraz Pydantic do strukturalnego wyodrębniania.

Wprowadzenie

Ta lekcja obejmie:

Cele Nauki

Po ukończeniu tej lekcji będziesz umiał:

Przykład Kodów

Ta lekcja zawiera jeden samouczek w notebooku:

Wymagania Wstępne

Konfiguracja

Zainstaluj pakiety używane w notebooku:

pip install browser_use playwright python-dotenv
playwright install chromium

Ustaw zmienne środowiskowe Azure OpenAI używane przez notebook:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Opcjonalne: domyślnie używa najnowszej wersji API, jeśli pominięte
AZURE_OPENAI_API_VERSION=...

Przegląd Architektury

Notebook demonstruje hybrydowy przepływ automatyzacji przeglądarki:

  1. Chrome uruchamia się z włączonym CDP, aby zarówno Playwright, jak i Browser-Use mogły współdzielić tę samą sesję przeglądarki.
  2. Agent Browser-Use zajmuje się otwartymi zadaniami nawigacyjnymi, takimi jak otwieranie Airbnb, zamykanie wyskakujących okienek i wyszukiwanie Sztokholmu.
  3. Aktywna strona jest analizowana ze strukturalnym schematem Pydantic w celu wyodrębnienia tytułów ofert, cen za noc, ocen i adresów URL.
  4. Logika Pythona porównuje wyodrębnione oferty i podświetla najtańszy wynik.

Takie podejście zachowuje elastyczne rozumowanie oparte na wizji, z którego słynie Browser-Use, przy jednoczesnym zapewnieniu deterministycznej kontroli przeglądarki wtedy, gdy jest to potrzebne.

Kluczowe Wnioski i Najlepsze Praktyki

Kiedy używać Agenta a kiedy Aktora

Scenariusz Użyj Agenta Użyj Aktora
Dynamiczne układy Tak, AI potrafi dostosować się do zmian strony Nie, łamliwe selektory mogą zawodzić
Znana struktura Nie, agent jest wolniejszy niż bezpośrednia kontrola Tak, szybki i precyzyjny
Znajdowanie elementów Tak, naturalny język działa dobrze Nie, wymagane są dokładne selektory
Kontrola czasu Nie, mniej przewidywalne Tak, pełna kontrola nad oczekiwaniami i powtórkami
Złożone przepływy Tak, radzi sobie z nieoczekiwanymi stanami UI Nie, wymaga jawnego rozgałęziania

Najlepsze praktyki Browser-Use

  1. Zacznij od agenta do eksploracji i dynamicznej nawigacji.
  2. Przejdź do bezpośredniej kontroli strony, gdy interakcja stanie się przewidywalna.
  3. Używaj modeli struktur danych, aby wyodrębnione dane były walidowane i typowane.
  4. Dodawaj opóźnienia strategicznie po akcjach wywołujących widoczne zmiany UI.
  5. Rób zrzuty ekranu podczas iteracji, aby łatwiej diagnozować błędy.
  6. Spodziewaj się zmian stron i projektuj strategie zapasowe dla wyskakujących okienek i przesunięć układu.
  7. Łącz wzorce agenta i aktora, aby uzyskać zarówno elastyczność, jak i precyzję.

Zastosowania w rzeczywistym świecie

Dodatkowe zasoby


Zastrzeżenie: Ten dokument został przetłumaczony przy użyciu usługi tłumaczenia AI Co-op Translator. Chociaż dążymy do dokładności, prosimy pamiętać, że tłumaczenia automatyczne mogą zawierać błędy lub niedokładności. Oryginalny dokument w jego języku źródłowym powinien być uznawany za wiarygodne źródło. W przypadku informacji krytycznych zaleca się skorzystanie z profesjonalnego tłumaczenia wykonanego przez człowieka. Nie ponosimy odpowiedzialności za jakiekolwiek nieporozumienia lub błędne interpretacje wynikające z korzystania z tego tłumaczenia.