Δημιουργία Πρακτόρων Χρήσης Υπολογιστή (CUA)
Οι πράκτορες χρήσης υπολογιστή μπορούν να αλληλεπιδράσουν με ιστοσελίδες με τον ίδιο τρόπο που θα έκανε ένας άνθρωπος: ανοίγοντας έναν περιηγητή, εξετάζοντας τη σελίδα και παίρνοντας την επόμενη καλύτερη ενέργεια με βάση αυτά που βλέπουν. Σε αυτό το μάθημα, θα δημιουργήσετε έναν πράκτορα αυτοματοποίησης περιηγητή που αναζητά στο Airbnb, εξάγει δομημένα δεδομένα καταχωρίσεων και εντοπίζει τη φθηνότερη διαμονή στη Στοκχόλμη.
Το μάθημα συνδυάζει το Browser-Use για πλοήγηση που ελέγχεται από τεχνητή νοημοσύνη, το Playwright και το Chrome DevTools Protocol (CDP) για έλεγχο του περιηγητή, το Azure OpenAI για οπτική επεξεργασία λογικής, και το Pydantic για δομημένη εξαγωγή.
Εισαγωγή
Αυτό το μάθημα θα καλύψει:
- Κατανόηση πότε οι πράκτορες χρήσης υπολογιστή είναι καταλληλότεροι από την αυτοματοποίηση μόνο με API
- Συνδυασμό Browser-Use με Playwright και CDP για αξιόπιστη διαχείριση του κύκλου ζωής του περιηγητή
- Χρήση οπτικής δυνατότητας του Azure OpenAI και δομημένης εξόδου Pydantic για εξαγωγή δεδομένων καταχωρίσεων από δυναμικές ιστοσελίδες
- Απόφαση πότε να χρησιμοποιήσετε ροή εργασίας αυτοματοποίησης με πρώτο τον πράκτορα, τον εκτελεστή ή υβριδική
Στόχοι Μάθησης
Μετά την ολοκλήρωση αυτού του μαθήματος, θα γνωρίζετε πώς να:
- Ρυθμίζετε το Browser-Use με Azure OpenAI και Playwright
- Δημιουργείτε ροή εργασίας αυτοματοποίησης περιηγητή που πλοηγείται σε πραγματική ιστοσελίδα και διαχειρίζεται δυναμικά στοιχεία διεπαφής χρήστη
- Εξάγετε τυποποιημένα αποτελέσματα από το ορατό περιεχόμενο της σελίδας και τα μετατρέπετε σε επιχειρηματική λογική που τρέχει κατόπιν
- Επιλέγετε μεταξύ μοτίβων πράκτορα και εκτελεστή ανάλογα με το πόσο προβλέψιμο είναι το έργο στον περιηγητή
Παράδειγμα Κώδικα
Το μάθημα περιλαμβάνει ένα σημειωματάριο με εκπαιδευτικό παράδειγμα:
- 15-browser-user.ipynb: Εκκινεί μια συνεδρία Chrome μέσω CDP, αναζητά καταχωρίσεις της Στοκχόλμης στο Airbnb, εξάγει τις τιμές με όραση Browser-Use και επιστρέφει την φθηνότερη επιλογή ως δομημένα δεδομένα.
Προαπαιτούμενα
- Python 3.12+
- Διαμορφωμένη ανάπτυξη Azure OpenAI στο περιβάλλον σας
- Εγκατεστημένος τοπικά Chrome ή Chromium
- Εγκατεστημένες οι εξαρτήσεις Playwright
- Βασική εξοικείωση με ασύγχρονο Python
Ρύθμιση
Εγκαταστήστε τα πακέτα που χρησιμοποιούνται στο σημειωματάριο:
pip install browser_use playwright python-dotenv
playwright install chromium
Ορίστε τις μεταβλητές περιβάλλοντος Azure OpenAI που χρησιμοποιεί το σημειωματάριο:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# Προαιρετικό: ορίζεται στην πιο πρόσφατη έκδοση API όταν παραλείπεται
AZURE_OPENAI_API_VERSION=...
Επισκόπηση Αρχιτεκτονικής
Το σημειωματάριο δείχνει μια υβριδική ροή εργασίας αυτοματοποίησης περιηγητή:
- Το Chrome ξεκινά με ενεργοποιημένο CDP ώστε ο Playwright και το Browser-Use να μοιράζονται την ίδια συνεδρία περιηγητή.
- Ένας πράκτορας Browser-Use διαχειρίζεται ανοιχτού τύπου εργασίες πλοήγησης όπως άνοιγμα Airbnb, απόρριψη αναδυόμενων παραθύρων και αναζήτηση για Στοκχόλμη.
- Η ενεργή σελίδα εξετάζεται με μια δομημένη Pydantic σχηματική για να εξαχθούν τίτλοι καταχωρίσεων, τιμές ανά βράδυ, βαθμολογίες και URL.
- Η λογική Python συγκρίνει τις εξαγόμενες καταχωρίσεις και επισημαίνει το φθηνότερο αποτέλεσμα.
Αυτή η προσέγγιση διατηρεί την ευέλικτη, όραση-βασισμένη λογική που το Browser-Use χειρίζεται καλά ενώ ταυτόχρονα παρέχει ντετερμινιστικό έλεγχο του περιηγητή όταν χρειάζεται.
Κύρια Σημεία και Καλές Πρακτικές
Πότε να Χρησιμοποιείτε Πράκτορα vs Εκτελεστή
| Σενάριο |
Χρήση Πράκτορα |
Χρήση Εκτελεστή |
| Δυναμικές διατάξεις |
Ναι, η τεχνητή νοημοσύνη προσαρμόζεται στις αλλαγές σελίδας |
Όχι, εύθραυστοι επιλεγείς μπορούν να σπάσουν |
| Γνωστή δομή |
Όχι, ο πράκτορας είναι πιο αργός από τον άμεσο έλεγχο |
Ναι, γρήγορος και ακριβής |
| Εύρεση στοιχείων |
Ναι, η φυσική γλώσσα λειτουργεί καλά |
Όχι, απαιτούνται ακριβείς επιλεγείς |
| Έλεγχος χρονισμού |
Όχι, λιγότερο προβλέψιμος |
Ναι, πλήρης έλεγχος σε αναμονές και επαναλήψεις |
| Πολύπλοκες ροές εργασίας |
Ναι, διαχειρίζεται απροσδόκητες καταστάσεις UI |
Όχι, απαιτεί ρητή διακλάδωση |
Καλές Πρακτικές Browser-Use
- Ξεκινήστε με πράκτορα για εξερεύνηση και δυναμική πλοήγηση.
- Μεταβείτε σε άμεσο έλεγχο σελίδας όταν η αλληλεπίδραση γίνεται προβλέψιμη.
- Χρησιμοποιήστε δομημένα μοντέλα εξόδου ώστε τα δεδομένα να είναι επικυρωμένα και τύπου ασφαλή.
- Προσθέστε καθυστερήσεις στρατηγικά μετά από ενέργειες που προκαλούν ορατές αλλαγές UI.
- Καταγράψτε στιγμιότυπα οθόνης κατά την επανάληψη ώστε οι αποτυχίες να είναι πιο εύκολα εντοπίσιμες.
- Περιμένετε ότι οι ιστότοποι θα αλλάξουν και σχεδιάστε στρατηγικές εναλλακτικής λύσης για αναδυόμενα παράθυρα και αλλαγές διάταξης.
- Συνδυάστε μοτίβα πράκτορα και εκτελεστή για να έχετε και ευελιξία και ακρίβεια.
Πραγματικές Εφαρμογές
- Κράτηση ταξιδιών και παρακολούθηση τιμών
- Σύγκριση τιμών e-commerce και έλεγχοι διαθεσιμότητας
- Δομημένη εξαγωγή από δυναμικούς ιστότοπους
- Δοκιμές UI με επίγνωση όρασης και επαλήθευση
- Παρακολούθηση και ειδοποίηση ιστοσελίδων
- Έξυπνη συμπλήρωση φορμών σε πολυβηματικές ροές
Πρόσθετοι Πόροι
Αποποίηση Ευθυνών:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία μετάφρασης AI Co-op Translator. Ενώ προσπαθούμε για ακρίβεια, παρακαλούμε να γνωρίζετε ότι οι αυτόματες μεταφράσεις μπορεί να περιέχουν σφάλματα ή ανακρίβειες. Το αρχικό έγγραφο στην μητρική του γλώσσα θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή λανθασμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.