కంప్యూటర్ వినియోగ ఏజెంట్లను నిర్మించడం (CUA)
కంప్యూటర్ వినియోగ ఏజెంట్లు వ్యక్తి ఎటువంటి విధంగా వెబ్సైట్లతో సంబంధం ఉంచుతారో అదే విధంగా వ్యవహరిస్తాయి: బ్రౌజర్ని ఓపెన్ చేసి, పేజీని పరిశీలించి, వారు చూసిన దాంట్లో శ్రేష్టమైన చర్య తీసుకుంటారు. ఈ పాఠంలో, మీరు Airbnb ను శోధించే, నిర్మిత లిస్టింగ్ డేటాను తీయించే, మరియు స్టాక్హోమ్లో అత్యంత తక్కువ ధర కలిగిన ఉండటాన్ని నిర్దేశించే బ్రౌజర్ ఆటోమేషన్ ఏజెంటును నిర్మిస్తారు.
ఈ పాఠం Browser-Use ని AI ఆధారిత నావిగేషన్ కోసం, Playwright మరియు Chrome DevTools Protocol (CDP) ని బ్రౌజర్ నియంత్రణ కోసం, Azure OpenAI ని విజన్-సహాయక రీజనింగ్ కోసం, మరియు Pydantic ని నిర్మిత శోధన కోసం కలిసిపోతుంది.
పరిచయం
ఈ పాఠం కవర్ చేసే అంశాలు:
- కంప్యూటర్ వినియోగ ఏజెంట్లు API-మాత్రమే ఆటోమేషన్కు కంటే మెరుగ్గా ఉండే సందర్భాలు అర్థం చేసుకోవడం
- Browser-Use ను Playwright మరియు CDP తో నమ్మదగిన బ్రౌజర్ లైఫ్సైకిల్ నిర్వహణ కోసం కలపడం
- డైనమిక్ వెబ్ పేజీలలో నుండి లిస్టింగ్ డేటాను తీయడానికి Azure OpenAI విజన్ మరియు నిర్మిత Pydantic ఫలితాన్ని ఉపయోగించడం
- ఏజెంట్-ఫస్ట్, ఆక్టర్-ఫస్ట్, లేదా హైబ్రిడ్ బ్రౌజర్ ఆటోమేషన్ వర్క్ఫ్లోలను ఎప్పుడు ఉపయోగించాలో నిర్ణయించడం
అభ్యాస లక్ష్యాలు
ఈ పాఠాన్ని పూర్తిచేసిన తర్వాత, మీరు:
- Azure OpenAI మరియు Playwright తో Browser-Use ని కాన్ఫిగర్ చేయడం ఎలా తెలుసుకుంటారు
- వాస్తవ వెబ్సైట్ నావిగేట్ చేసే, డైనమిక్ UI మూలకాలను నిర్వహించే బ్రౌజర్ ఆటోమేషన్ వర్క్ఫ్లో నిర్మించగలుగుతారు
- దృశ్య పేజీ కంటెంట్ నుండి టైప్డ్ ఫలితాలను తీయడం మరియు వాటిని వ్యాపార లోజిక్కు మార్చడం
- బ్రౌజర్ టాస్క్ ఎంతగా పూచ్చినదో ఆధారంగా ఏజెంట్ మరియు ఆక్టర్ నమూనాల ద్వారా ఎంచుకోవడం
కోడ్ సాంపిల్
ఈ పాఠంలో ఒక నోట్బుక్ ట్యూటోరియల్ ఉంది:
- 15-browser-user.ipynb: CDP మీద క్రోమ్ సెషన్ను ప్రారంభించి, Airbnbలో స్టాక్హోమ్ లిస్టింగ్స్ కోసం శోధన చేసి, Browser-Use విజన్తో ధరలను తీయడం మరియు నిర్మిత డేటాగా అత్యంత తక్కువ ధరలను తిరిగి ఇవ్వటం.
ముందు అవసరాలు
- Python 3.12+
- మీ పర్యావరణంలో Azure OpenAI డిప్లాయ్మెంట్ కాంఫిగర్ చేయబడినది
- లొకల్గా Chrome లేదా Chromium ఇన్స్టాల్ చేయబడింది
- Playwright ఆధారాలు ఇన్స్టాల్ చేయబడినవి
- async Python కు ప్రాథమిక పరిచయం
సెటప్
నోట్బుక్ లో ఉపయోగించే ప్యాకేజీలను ఇన్స్టాల్ చేయండి:
pip install browser_use playwright python-dotenv
playwright install chromium
నోట్బుక్ ఉపయోగించే Azure OpenAI పర్యావరణ మార్పిడులను సెట్ చేయండి:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ఐచ్ఛికం: వదిలివేస్తే తాజా API వెర్షన్కు డీఫాల్ట్ అవుతుంది
AZURE_OPENAI_API_VERSION=...
నిర్మాణావళి అవలోకనం
నోట్బుక్ హైబ్రిడ్ బ్రౌజర్ ఆటోమేషన్ వర్క్ఫ్లోని చూపిస్తుంది:
- క్రోమ్ CDP తో ప్రారంభమవుతుంది కాబట్టి Playwright మరియు Browser-Use ఒకే బ్రౌజర్ సెషన్ను పంచుకోగలరు.
- Browser-Use ఏజెంట్ Airbnb ని ఓపెన్ చేయడం, పాప్-అప్లను తొలగించడం, మరియు స్టాక్హోమ్ కోసం శోధించడం వంటి ఓపెన్-ఎండెడ్ నావిగేషన్ టాస్క్లను నిర్వహిస్తుంది.
- యాక్టివ్ పేజీని నిర్మిత Pydantic స్కీమాతో పరిశీలించి లిస్టింగ్ శీర్షికలు, రాత్రి ధరలు, రేటింగ్లు, మరియు URL లను తీయడం.
- పైథాన్ లాజిక్ తీయబడిన లిస్టింగులను పోల్చి అత్యంత తక్కువ ధర ఉన్న ఫలితాన్ని హైలైట్ చేస్తుంది.
ఈ విధానం Browser-Use సులభంగా చేయగల విజన్ ఆధారిత రీజనింగ్ ని కాపాడుతుంది మరియు మీరు అవసరమైనప్పుడు తేలికగా బ్రౌజర్ నియంత్రణను ఇస్తుంది.
ముఖ్యమైన విషయాలు మరియు ఉత్తమ ఆచారాలు
ఎప్పుడు ఏజెంట్ vs ఆక్టర్ ఉపయోగించాలి
| పరిస్థితే |
ఏజెంట్ ఉపయోగించండి |
ఆక్టర్ ఉపయోగించండి |
| డైనమిక్ లేఅవుట్లు |
అవును, AI పేజీ మార్పులకు అనుగుణంగా ఉంటుంది |
కాదు, సున్నితమైన సెలెక్టర్లు వివరణాత్మకంగా విరిగి పోతాయి |
| గుర్తించిన నిర్మాణం |
కాదు, ఏజెంట్ నేరుగా నియంత్రణ కంటే మందగ కలగును |
అవును, వేగవంతముగా మరియు ఖచ్చితంగా |
| మూలకాలను కనుగొనడం |
అవును, సహజ భాష బాగా పనిచేస్తుంది |
కాదు, ఖచ్చితమైన సెలెక్టర్లు అవసరం |
| టైమింగ్ నియంత్రణ |
కాదు, తక్కువ ఊహాగానకరమైనది |
అవును, వేచివుండటం మరియు ప్రయత్నాలను పూర్తిగా నియంత్రించగలదు |
| సంక్లిష్ట వర్క్ఫ్లోలు |
అవును, అనుకోని UI పరిస్థితులను నిర్వహిస్తుంది |
కాదు, స్పష్టమైన బ్రాంచింగ్ అవసరం |
Browser-Use ఉత్తమ ఆచారాలు
- అన్వేషణ మరియు డైనమిక్ నావిగేషన్ కోసం ఏజెంట్తో ప్రారంభించండి.
- పరస్పర సంబంధం పూర్వం ఊహాజనితంగా ఉన్నప్పుడు నేరుగా పేజీ నియంత్రణకు మారండి.
- తీయబడిన డేటా సత్యపరీక్షిత మరియు టైప్-భద్రమైనదిగా ఉండేందుకు నిర్మిత అవుట్పుట్ మోడల్స్ ఉపయోగించండి.
- కనిపించగల UI మార్పులకు కారణమయ్యే చర్యల తర్వాత వ్యూహాత్మకంగా ఆలస్యం జోడించండి.
- విఫలమైతే సులభంగా డీబగ్ చేసుకోవడానికి తిరగబోతున్నప్పుడు స్క్రీన్షాట్లు తీసుకోండి.
- వెబ్సైట్లు మారుతుంటాయని భావించి పాప్-అప్లు మరియు లేఅవుట్ మార్పులకు ఫాల్బ్యాక్ వ్యూహాలు రూపొందించండి.
- ఏజెంట్ మరియు ఆక్టర్ నమూనాలను కలిపి సున్నితత్వం మరియు ఖచ్చితత్వం రెండినీ పొందండి.
నిజ జీవిత అనువర్తనాలు
- ప్రయాణ బుకింగ్ మరియు ధరా పర్యవేక్షణ
- ఈ-కామర్స్ ధర పోలిక మరియు అందుబాటు తనిఖీలు
- డైనమిక్ వెబ్సైట్ల నుండి నిర్మిత శోధన
- విజన్-అవేర్ UI పరీక్ష మరియు ధృవీకరణ
- వెబ్సైట్ పర్యవేక్షణ మరియు అలర్టింగ్
- బహుళ-దశాగత ప్రవాహాలలో తెలివైన ఫారం నింపడం
అదనపు వనరులు
తప్పిదం:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మనం ఖచ్చితత్వానికి ప్రయత్నిస్తున్నా, ఆర్టోమేటెడ్ అనువాదాలలో పొరపాట్లు లేదా తప్పుడు వివరాలు ఉండవచ్చు. స్వదేశీ భాషలో ఉన్న అసలు పత్రం ప్రామాణిక మూల్యంగా పరిగణించాలి. అత్యవసర సమాచారం కోసం, వృత్తిపరమైన మానవ అనువాదాన్ని సూచిస్తాము. ఈ అనువాదాన్ని ఉపయోగించడం వల్ల కలిగే ఏవైనా అవగాహన లోపాలు లేదా తప్పుదోవ పట్టడాలకు మేము బాధ్యత వహించము.