ai-agents-for-beginners

Bilgisayar Kullanım Ajanları (CUA) Oluşturma

Bilgisayar kullanım ajanları, bir kişinin yapacağı gibi bir tarayıcı açarak, sayfayı inceleyerek ve gördüklerinden sonraki en iyi adımı atarak web siteleriyle etkileşim kurabilir. Bu derste, Airbnb’de arama yapan, yapılandırılmış liste verileri çıkaran ve Stockholm’deki en ucuz konaklamayı belirleyen bir tarayıcı otomasyon ajanı oluşturacaksınız.

Ders, AI destekli gezinme için Browser-Use, tarayıcı kontrolü için Playwright ve Chrome DevTools Protokolü (CDP), görsel destekli mantık için Azure OpenAI ve yapılandırılmış çıkarım için Pydantic’i bir araya getirir.

Giriş

Bu ders şunları kapsayacak:

Öğrenme Hedefleri

Bu dersi tamamladıktan sonra şunları bileceksiniz:

Kod Örneği

Bu ders bir defter öğreticisi içerir:

Ön Koşullar

Kurulum

Defterde kullanılan paketleri yükleyin:

pip install browser_use playwright python-dotenv
playwright install chromium

Defterde kullanılan Azure OpenAI ortam değişkenlerini ayarlayın:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# İsteğe bağlı: Atlandığında varsayılan en son API sürümüdür
AZURE_OPENAI_API_VERSION=...

Mimari Genel Bakış

Defter hibrit bir tarayıcı otomasyon iş akışını gösterir:

  1. Chrome, Playwright ve Browser-Use’un aynı tarayıcı oturumunu paylaşabilmesi için CDP etkin olarak başlar.
  2. Browser-Use ajanı, Airbnb’yi açmak, açılır pencereleri kapatmak ve Stockholm araması yapmak gibi açık uçlu gezinme görevlerini yönetir.
  3. Aktif sayfa, liste başlıkları, gecelik fiyatlar, değerlendirmeler ve URL’leri çıkarmak için yapılandırılmış bir Pydantic şeması ile incelenir.
  4. Python mantığı, çıkarılan listeyi karşılaştırır ve en ucuz sonucu vurgular.

Bu yaklaşım, Browser-Use’un iyi olduğu esnek, görsel tabanlı mantığı korurken ihtiyacınız olduğunda size belirleyici tarayıcı kontrolü sağlar.

Temel Çıkarımlar ve En İyi Uygulamalar

Ajan mı Aktör mü Kullanmalı?

Senaryo Ajan Kullan Aktör Kullan
Dinamik düzenler Evet, AI sayfa değişikliklerine uyum sağlar Hayır, hassas seçiciler kırılabilir
Bilinen yapı Hayır, ajan doğrudan kontrolden daha yavaştır Evet, hızlı ve hassas
Öğeleri bulma Evet, doğal dil iyi çalışır Hayır, kesin seçiciler gereklidir
Zamanlama kontrolü Hayır, daha az öngörülebilir Evet, beklemeler ve denemeler tam kontrol altında
Karmaşık iş akışları Evet, beklenmedik UI durumlarını yönetir Hayır, açık dallanma gerekir

Browser-Use En İyi Uygulamaları

  1. Keşif ve dinamik gezinme için bir ajanla başlayın.
  2. Etkileşim öngörülebilir hale geldiğinde doğrudan sayfa kontrolüne geçin.
  3. Çıkarılan verilerin doğrulanması ve tip güvenliği için yapılandırılmış çıktı modelleri kullanın.
  4. Görünür UI değişikliklerini tetikleyen eylemlerden sonra gecikmeleri stratejik olarak ekleyin.
  5. Hata ayıklamayı kolaylaştırmak için yineleme sırasında ekran görüntüleri alın.
  6. Web sitelerinin değişmesini bekleyin ve açılır pencereler ve düzen kaymaları için yedek stratejiler tasarlayın.
  7. Hem esneklik hem de hassasiyet elde etmek için ajan ve aktör kalıplarını harmanlayın.

Gerçek Dünya Uygulamaları

Ek Kaynaklar


Feragatname:
Bu belge, AI çeviri hizmeti Co-op Translator kullanılarak çevrilmiştir. Doğruluk için çaba göstersek de, otomatik çevirilerin hatalar veya yanlışlıklar içerebileceğini lütfen unutmayın. Orijinal belge, kendi dilinde yetkili kaynak olarak kabul edilmelidir. Kritik bilgiler için profesyonel insan çevirisi önerilir. Bu çevirinin kullanılması sonucu ortaya çıkan yanlış anlamalar veya yanlış yorumlamalar için sorumluluk kabul edilmemektedir.