ai-agents-for-beginners

Membina Ejen Penggunaan Komputer (CUA)

Ejen penggunaan komputer boleh berinteraksi dengan laman web sama seperti seorang manusia: dengan membuka pelayar, memeriksa halaman, dan mengambil tindakan terbaik seterusnya berdasarkan apa yang mereka lihat. Dalam pelajaran ini, anda akan membina ejen automasi pelayar yang mencari Airbnb, mengekstrak data penyenaraian berstruktur, dan mengenal pasti penginapan termurah di Stockholm.

Pelajaran ini menggabungkan Browser-Use untuk navigasi dipacu AI, Playwright dan Protokol DevTools Chrome (CDP) untuk kawalan pelayar, Azure OpenAI untuk penalaran berkeupayaan visi, dan Pydantic untuk ekstraksi berstruktur.

Pengenalan

Pelajaran ini akan merangkumi:

Matlamat Pembelajaran

Selepas menyelesaikan pelajaran ini, anda akan tahu bagaimana untuk:

Contoh Kod

Pelajaran ini termasuk satu tutorial notebook:

Prasyarat

Persediaan

Pasang pakej yang digunakan dalam notebook:

pip install browser_use playwright python-dotenv
playwright install chromium

Tetapkan pembolehubah persekitaran Azure OpenAI yang digunakan oleh notebook:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Pilihan: secara lalai menggunakan versi API terkini apabila diabaikan
AZURE_OPENAI_API_VERSION=...

Gambaran Keseluruhan Seni Bina

Notebook ini menunjukkan aliran kerja automasi pelayar hibrid:

  1. Chrome bermula dengan CDP diaktifkan supaya Playwright dan Browser-Use boleh berkongsi sesi pelayar yang sama.
  2. Ejen Browser-Use mengendalikan tugas navigasi terbuka seperti membuka Airbnb, menutup pop-up, dan mencari Stockholm.
  3. Halaman aktif diperiksa dengan skema Pydantic berstruktur untuk mengekstrak tajuk penyenaraian, harga malam, penilaian, dan URL.
  4. Logik Python membandingkan penyenaraian yang diekstrak dan menonjolkan keputusan termurah.

Pendekatan ini mengekalkan penalaran berasaskan visi yang fleksibel yang Browser-Use mahir sambil masih memberi anda kawalan pelayar deterministik apabila anda memerlukannya.

Perkara Penting dan Amalan Terbaik

Bila Menggunakan Ejen vs Pelakon

Senario Gunakan Ejen Gunakan Pelakon
Susun atur dinamik Ya, AI boleh sesuaikan dengan perubahan halaman Tidak, pemilih yang rapuh mungkin rosak
Struktur diketahui Tidak, ejen lebih perlahan daripada kawalan langsung Ya, pantas dan tepat
Mencari elemen Ya, bahasa semula jadi berkesan Tidak, pemilih tepat diperlukan
Kawalan masa Tidak, kurang boleh diramalkan Ya, kawalan penuh ke atas menunggu dan cubaan semula
Aliran kerja kompleks Ya, mengendalikan keadaan UI yang tidak dijangka Tidak, memerlukan cabang eksplisit

Amalan Terbaik Browser-Use

  1. Mulakan dengan ejen untuk eksplorasi dan navigasi dinamik.
  2. Beralih ke kawalan halaman langsung apabila interaksi menjadi boleh dijangka.
  3. Gunakan model output berstruktur supaya data yang diekstrak disahkan dan selamat jenis.
  4. Tambah kelewatan secara strategik selepas tindakan yang mencetuskan perubahan UI yang kelihatan.
  5. Tangkap tangkapan skrin semasa iterasi supaya kegagalan lebih mudah untuk debug.
  6. Jangka laman web berubah dan reka strategi fallback untuk pop-up dan peralihan susun atur.
  7. Gabungkan corak ejen dan pelakon untuk mendapatkan fleksibiliti dan ketepatan.

Aplikasi Dunia Sebenar

Sumber Tambahan


Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha mencapai ketepatan, sila maklum bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang sah. Untuk maklumat penting, terjemahan profesional oleh manusia adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.