ai-agents-for-beginners

కంప్యూటర్ వినియోగ ఏజెంట్లను నిర్మించడం (CUA)

కంప్యూటర్ వినియోగ ఏజెంట్లు వ్యక్తి ఎటువంటి విధంగా వెబ్‌సైట్లతో సంబంధం ఉంచుతారో అదే విధంగా వ్యవహరిస్తాయి: బ్రౌజర్‌ని ఓపెన్ చేసి, పేజీని పరిశీలించి, వారు చూసిన దాంట్లో శ్రేష్టమైన చర్య తీసుకుంటారు. ఈ పాఠంలో, మీరు Airbnb ను శోధించే, నిర్మిత లిస్టింగ్ డేటాను తీయించే, మరియు స్టాక్‌హోమ్‌లో అత్యంత తక్కువ ధర కలిగిన ఉండటాన్ని నిర్దేశించే బ్రౌజర్ ఆటోమేషన్ ఏజెంటును నిర్మిస్తారు.

ఈ పాఠం Browser-Use ని AI ఆధారిత నావిగేషన్ కోసం, Playwright మరియు Chrome DevTools Protocol (CDP) ని బ్రౌజర్ నియంత్రణ కోసం, Azure OpenAI ని విజన్-సహాయక రీజనింగ్ కోసం, మరియు Pydantic ని నిర్మిత శోధన కోసం కలిసిపోతుంది.

పరిచయం

ఈ పాఠం కవర్ చేసే అంశాలు:

అభ్యాస లక్ష్యాలు

ఈ పాఠాన్ని పూర్తిచేసిన తర్వాత, మీరు:

కోడ్ సాంపిల్

ఈ పాఠంలో ఒక నోట్బుక్ ట్యూటోరియల్ ఉంది:

ముందు అవసరాలు

సెటప్

నోట్బుక్ లో ఉపయోగించే ప్యాకేజీలను ఇన్స్టాల్ చేయండి:

pip install browser_use playwright python-dotenv
playwright install chromium

నోట్బుక్ ఉపయోగించే Azure OpenAI పర్యావరణ మార్పిడులను సెట్ చేయండి:

AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ఐచ్ఛికం: వదిలివేస్తే తాజా API వెర్షన్‌కు డీఫాల్ట్ అవుతుంది
AZURE_OPENAI_API_VERSION=...

నిర్మాణావళి అవలోకనం

నోట్బుక్ హైబ్రిడ్ బ్రౌజర్ ఆటోమేషన్ వర్క్‌ఫ్లోని చూపిస్తుంది:

  1. క్రోమ్ CDP తో ప్రారంభమవుతుంది కాబట్టి Playwright మరియు Browser-Use ఒకే బ్రౌజర్ సెషన్‌ను పంచుకోగలరు.
  2. Browser-Use ఏజెంట్ Airbnb ని ఓపెన్ చేయడం, పాప్-అప్లను తొలగించడం, మరియు స్టాక్‌హోమ్ కోసం శోధించడం వంటి ఓపెన్-ఎండెడ్ నావిగేషన్ టాస్క్‌లను నిర్వహిస్తుంది.
  3. యాక్టివ్ పేజీని నిర్మిత Pydantic స్కీమాతో పరిశీలించి లిస్టింగ్ శీర్షికలు, రాత్రి ధరలు, రేటింగ్‌లు, మరియు URL లను తీయడం.
  4. పైథాన్ లాజిక్ తీయబడిన లిస్టింగులను పోల్చి అత్యంత తక్కువ ధర ఉన్న ఫలితాన్ని హైలైట్ చేస్తుంది.

ఈ విధానం Browser-Use సులభంగా చేయగల విజన్ ఆధారిత రీజనింగ్ ని కాపాడుతుంది మరియు మీరు అవసరమైనప్పుడు తేలికగా బ్రౌజర్ నియంత్రణను ఇస్తుంది.

ముఖ్యమైన విషయాలు మరియు ఉత్తమ ఆచారాలు

ఎప్పుడు ఏజెంట్ vs ఆక్టర్ ఉపయోగించాలి

పరిస్థితే ఏజెంట్ ఉపయోగించండి ఆక్టర్ ఉపయోగించండి
డైనమిక్ లేఅవుట్లు అవును, AI పేజీ మార్పులకు అనుగుణంగా ఉంటుంది కాదు, సున్నితమైన సెలెక్టర్లు వివరణాత్మకంగా విరిగి పోతాయి
గుర్తించిన నిర్మాణం కాదు, ఏజెంట్ నేరుగా నియంత్రణ కంటే మందగ కలగును అవును, వేగవంతముగా మరియు ఖచ్చితంగా
మూలకాలను కనుగొనడం అవును, సహజ భాష బాగా పనిచేస్తుంది కాదు, ఖచ్చితమైన సెలెక్టర్లు అవసరం
టైమింగ్ నియంత్రణ కాదు, తక్కువ ఊహాగానకరమైనది అవును, వేచివుండటం మరియు ప్రయత్నాలను పూర్తిగా నియంత్రించగలదు
సంక్లిష్ట వర్క్‌ఫ్లోలు అవును, అనుకోని UI పరిస్థితులను నిర్వహిస్తుంది కాదు, స్పష్టమైన బ్రాంచింగ్ అవసరం

Browser-Use ఉత్తమ ఆచారాలు

  1. అన్వేషణ మరియు డైనమిక్ నావిగేషన్ కోసం ఏజెంట్‌తో ప్రారంభించండి.
  2. పరస్పర సంబంధం పూర్వం ఊహాజనితంగా ఉన్నప్పుడు నేరుగా పేజీ నియంత్రణకు మారండి.
  3. తీయబడిన డేటా సత్యపరీక్షిత మరియు టైప్-భద్రమైనదిగా ఉండేందుకు నిర్మిత అవుట్పుట్ మోడల్స్ ఉపయోగించండి.
  4. కనిపించగల UI మార్పులకు కారణమయ్యే చర్యల తర్వాత వ్యూహాత్మకంగా ఆలస్యం జోడించండి.
  5. విఫలమైతే సులభంగా డీబగ్ చేసుకోవడానికి తిరగబోతున్నప్పుడు స్క్రీన్‌షాట్‌లు తీసుకోండి.
  6. వెబ్‌సైట్లు మారుతుంటాయని భావించి పాప్-అప్‌లు మరియు లేఅవుట్ మార్పులకు ఫాల్‌బ్యాక్ వ్యూహాలు రూపొందించండి.
  7. ఏజెంట్ మరియు ఆక్టర్ నమూనాలను కలిపి సున్నితత్వం మరియు ఖచ్చితత్వం రెండినీ పొందండి.

నిజ జీవిత అనువర్తనాలు

అదనపు వనరులు


తప్పిదం: ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మనం ఖచ్చితత్వానికి ప్రయత్నిస్తున్నా, ఆర్టోమేటెడ్ అనువాదాలలో పొరపాట్లు లేదా తప్పుడు వివరాలు ఉండవచ్చు. స్వదేశీ భాషలో ఉన్న అసలు పత్రం ప్రామాణిక మూల్యంగా పరిగణించాలి. అత్యవసర సమాచారం కోసం, వృత్తిపరమైన మానవ అనువాదాన్ని సూచిస్తాము. ఈ అనువాదాన్ని ఉపయోగించడం వల్ల కలిగే ఏవైనా అవగాహన లోపాలు లేదా తప్పుదోవ పట్టడాలకు మేము బాధ్యత వహించము.