ಕಂಪ್ಯೂಟರ್ ಬಳಕೆ ಏಜೆಂಟ್ಗಳನ್ನು (CUA) ನಿರ್ಮಿಸುವುದು
ಕಂಪ್ಯೂಟರ್ ಬಳಕೆ ಏಜೆಂಟ್ಗಳು ವ್ಯಕ್ತಿಯಂತೆ ವೆಬ್ಸೈಟ್ಗಳೊಂದಿಗೆ ಸಂವಹನ ಮಾಡಬಹುದು: ಬ್ರೌಸರ್ ತೆರೆಯುವುದರಿಂದ, ಪುಟವನ್ನು ಪರಿಶೀಲಿಸುವ ಮೂಲಕ, ಮತ್ತು ಅವರು ನೋಡಿದದರಿಂದ ಉತ್ತಮ ಕ್ರಮವನ್ನು ತೆಗೆದುಕೊಳ್ಳುವುದು. ಈ ಪಾಠದಲ್ಲಿ, ನೀವು Airbnb ಅನ್ನು ಹುಡುಕುತ್ತಿರುವ, ರಚನೆಗೊಂಡ ಲಿಸ್ಟಿಂಗ್ ಡೇಟಾವನ್ನು ತೆಗೆಯುವ ಮತ್ತು ಸ್ಟಾಕ್ಹೋಲ್ಮ್ನಲ್ಲಿ ಅತಿ ಕಡಿಮೆ ಬಾಡಿಗೆಯನ್ನು ಗುರುತಿಸುವ ಬ್ರೌಸರ್ ಸ್ವಯಂಚಾಲಿತ ಏಜೆಂಟ್ ಅನ್ನು ನಿರ್ಮಿಸುವಿರಿ.
ಈ ಪಾಠ AI-ಚಾಲಿತ ನ್ಯಾವಿಗೇಶನ್ಗೆ Browser-Use, ಬ್ರೌಸರ್ ನಿಯಂತ್ರಣಕ್ಕೆ Playwright ಮತ್ತು Chrome DevTools ಪ್ರೋಟೋಕಾಲ್ (CDP), ದೃಷ್ಟಿ ಸಕ್ರಿಯ ನಿರ್ಣಯಕ್ಕೆ Azure OpenAI ಮತ್ತು ರಚನೆಗೊಂಡ ತೆಗೆಯಲು Pydantic ಅನ್ನು ಸಂಯೋಜಿಸುತ್ತದೆ.
ಪರಿಚಯ
ಈ ಪಾಠದಲ್ಲಿ ಇವುಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ:
- API-ಮಾತ್ರ ಸ್ವಯಂಚಾಲಿತಕ್ಕಿಂತ ಕಂಪ್ಯೂಟರ್ ಬಳಕೆ ಏಜೆಂಟ್ಗಳು ಯಾವಾಗ ಉತ್ತಮ ಆಯ್ಕೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು
- ವಿಶ್ವಾಸಾರ್ಹ ಬ್ರೌಸರ್ ಜೀವನಚರಿತ್ರೆ ನಿರ್ವಹಣೆಗೆ Browser-Use ಅನ್ನು Playwright ಮತ್ತು CDP ಜೊತೆಗೆ ಸಂಯೋಜಿಸುವುದು
- Azure OpenAI ದೃಷ್ಟಿ ಮತ್ತು ರಚನೆಗೊಂಡ Pydantic ಔಟ್ಪುಟ್ ಮೂಲಕ ಡೈನಾಮಿಕ್ ವೆಬ್ ಪುಟಗಳಿಂದ ಲಿಸ್ಟಿಂಗ್ ಡೇಟಾವನ್ನು ತೆಗೆಯುವಿಕೆ
- ಏಜೆಂಟ್-ಪ್ರಥಮ, ಬ್ಯಾಟರ್-ಪ್ರಥಮ, ಅಥವಾ ಮಿಶ್ರ ಬ್ರೌಸರ್ ಸ್ವಯಂಚಾಲಿತ ಕಾರ್ಯವಾಹಕ ವಿಧಾನವನ್ನು ಯಾವಾಗ ಬಳಸುವುದು ಎಂದು ನಿರ್ಧರಿಸುವುದು
ಕಲಿಕೆಯ ಗುರಿಗಳು
ಈ ಪಾಠವನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದ ನಂತರ, ನೀವು ತಿಳಿದುಕೊಳ್ಳಲಿದ್ದೀರಿ:
- Browser-Use ಅನ್ನು Azure OpenAI ಮತ್ತು Playwright ಜೊತೆ ಹೇಗೆ ಹೊಂದಾಣಿಕೆ ಮಾಡುವುದು
- ನಿಜವಾದ ವೆಬ್ಸೈಟ್ ಅನ್ನು ನ್ಯಾವಿಗೇಟ್ ಮಾಡುವ ಮತ್ತು ಡೈನಾಮಿಕ್ UI ಅಂಶಗಳನ್ನು ನಿರ್ವಹಿಸುವ ಬ್ರೌಸರ್ ಸ್ವಯಂಚಾಲಿತ ಕಾರ್ಯವಾಹಕವನ್ನು ಹೇಗೆ ನಿರ್ಮಿಸುವುದು
- ದೃಶ್ಯಮಾನ ಪುಟ ವಿಷಯದಿಂದ ಟೈಪ್ ಮಾಡಿದ ಫಲಿತಾಂಶಗಳನ್ನು ತೆಗೆಯುವುದು ಮತ್ತು ಅವುಗಳನ್ನು ಮುಂದಿನ ವ್ಯವಹಾರ ಲಾಜಿಕ್ಗೆ ಪರಿವರ್ತಿಸುವುದು
- ಬ್ರೌಸರ್ ಕಾರ್ಯವು ಎಷ್ಟು ನಿರೀಕ್ಷಿಸಬಹುದಾಗಿದೆಯೆಂದು ಆಧರಿಸಿ ಏಜೆಂಟ್ ಮತ್ತು ಬ್ಯಾಟರ್ ಮಾದರಿಗಳಲ್ಲಿ ಪ್ರಾತ್ಯಕ್ಷತೆ ಆಯ್ಕೆ ಮಾಡುವುದು
ಕೋಡ್ ಉದಾಹರಣೆ
ಈ ಪಾಠದಲ್ಲಿ ಒಂದೇ ನೋಟ್ಬುಕ್ ಟ್ಯುಟೋರಿಯಲ್ ಇದೆ:
- 15-browser-user.ipynb: CDP ಮೂಲಕ ಕ್ರೋಮ್ ಸೆಷನ್ ಪ್ರಾರಂಭಿಸಿ, Airbnb ನಲ್ಲಿ ಸ್ಟಾಕ್ಹೋಲ್ಮ್ ಲಿಸ್ಟಿಂಗ್ಗಳನ್ನು ಹುಡುಕಿ, Browser-Use ದೃಷ್ಟಿ ಮೂಲಕ ಬೆಲೆಗಳನ್ನು ತೆಗೆಯುತ್ತದೆ ಮತ್ತು ಅತಿ ಕಡಿಮೆ ಆಯ್ಕೆಯನ್ನು ರಚನೆಗೊಂಡ ಡೇಟಾವಾಗಿ վերադարձಿಸುತ್ತದೆ.
ಪೂರ್ವಾಪೇक्षा
- ಪೈಥಾನ್ 3.12+
- ನಿಮ್ಮ ಪರಿಸರದಲ್ಲಿ Azure OpenAI ನಿಯೋಜನೆ ಹೊಂದಿಸಲಾಗಿದೆ
- ಸ್ಥಳೀಯವಾಗಿ ಕ್ರೋಮ್ ಅಥವಾ ಕ್ರೋಮಿಯಂ ಇನ್ಸ್ಟಾಲ್ ಆಗಿದೆ
- Playwright ಅವಲಂಬನೆಗಳು ಇನ್ಸ್ಟಾಲ್ ಆಗಿವೆ
- ಅಸಿಂಕ್ರೋನ್ ಪೈಥಾನ್ ಬಗ್ಗೆ ಮೂಲಭೂತ ಪರಿಚಯ
ಸೆಟ್ಅಪ್
ನೋಟ್ಬುಕ್ನಲ್ಲಿ ಬಳಕೆಯಾಗುವ ಪ್ಯಾಕೇಜ್ಗಳನ್ನು ಇನ್ಸ್ಟಾಲ್ ಮಾಡಿ:
pip install browser_use playwright python-dotenv
playwright install chromium
ನೋಟ್ಬುಕ್ ಬಳಸುವ Azure OpenAI ಪರಿಸರ ಚರಗಳನ್ನು ಸೆಟ್ ಮಾಡಿ:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ಐಚ್ಛಿಕ: ಒಳಗೊಂಡಿಲ್ಲದಿದ್ದರೆ ಡೀಫಾಲ್ಟ್ ಆಗಿ ಅತ್ಯಂತ ಹೊಸ API ಆವೃತ್ತಿಗೆ ಹೋಗುತ್ತದೆ
AZURE_OPENAI_API_VERSION=...
ಆರ್ಕಿಟೆಕ್ಚರ್ ಅವಲೋಕನ
ನೋಟ್ಬುಕ್ ಮಿಶ್ರ ಬ್ರೌಸರ್ ಸ್ವಯಂಚಾಲಿತ ಕಾರ್ಯವಾಹಕವನ್ನು ತೋರಿಸುತ್ತದೆ:
- ಕ್ರೋಮ್ CDP ಸಕ್ರಿಯಗೊಂಡು ಪ್ರಾರಂಭಿಸಿ, ಆದ್ದರಿಂದ Playwright ಮತ್ತು Browser-Use ಎರಡೂ ಒಂದು ಬ್ರೌಸರ್ ಸೆಷನ್ ಹಂಚಿಕೊಳ್ಳಬಹುದು.
- Browser-Use ಏಜೆಂಟ್ ಏರ್ಬಿಎನ್ಬಿ ತೆರೆಯುವುದು, ಪಾಪ್-ಅಪ್ಗಳನ್ನು ನಿರಾಕರಿಸುವುದು ಮತ್ತು ಸ್ಟಾಕ್ಹೋಲ್ಮ್ ಹುಡುಕಾಟದಂತಹ ಮುಕ್ತ ನ್ಯಾವಿಗೇಶನ್ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ.
- ಸಕ್ರಿಯ ಪುಟವನ್ನು ಸಂರಚಿತ Pydantic ಸ್ಕೀಮಾ ಮೂಲಕ ಪರಿಶೀಲಿಸಿ ಲಿಸ್ಟಿಂಗ್ ಶೀರ್ಷಿಕೆಗಳು, ರಾತ್ರಿ ಪ್ರತಿ ಬೆಲೆಗಳು, ರೇಟಿಂಗ್ಸ್ ಮತ್ತು URL ಗಳನ್ನು ತೆಗೆಯಲಾಗುತ್ತದೆ.
- ಪೈಥಾನ್ ಲಾಜಿಕ್ ತೆಗೆಯಲಾದ ಲಿಸ್ಟಿಂಗ್ಗಳನ್ನು ಹೋಲಿಸಿ ಅತಿ ಕಡಿಮೆ ವೆಚ್ಚದ ಫಲಿತಾಂಶವನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತದೆ.
ಈ ವಿಧಾನವು Browser-Use ಗೆ ಇರುವ ಲವಚಿಕೆಗೂ, ದೃಢ ಬ್ರೌಸರ್ ನಿಯಂತ್ರಣಕ್ಕೂ ಒಂದೇ ಸಮಯದಲ್ಲಿ ಅವಕಾಶ ನೀಡುತ್ತದೆ.
ಪ್ರಮುಖ ಹಿಡಿತಗಳು ಮತ್ತು ಉತ್ತಮ ಅಭ್ಯಾಸಗಳು
ಏಜೆಂಟ್ ಮತ್ತು ಬ್ಯಾಟರ್ ಯಾವಾಗ ಬಳಸಬೇಕು
| ಪರಿಸ್ಥಿತಿ |
ಏಜೆಂಟ್ ಬಳಸು |
ಬ್ಯಾಟರ್ ಬಳಸು |
| ಡೈನಾಮಿಕ್ ವಿನ್ಯಾಸಗಳು |
ಹೌದು, AI ಪುಟ ಬದಲಾವಣೆಗಳಿಗೆ ಹೊಂದಿಕೊಳ್ಳುತ್ತೆ |
ಇಲ್ಲ, ಸುಕ್ಷ್ಮ ಸೆಲೆಕ್ಟರ್ಗಳು ಒಡೆದುಹೋಗಬಹುದು |
| ಗೊತ್ತಾಗಿರುವ ರಚನೆ |
ಇಲ್ಲ, ಏಜೆಂಟ್ ನೇರ ನಿಯಂತ್ರಣಕ್ಕಿಂತ ಮಿಗಿಲು ನಿಧಾನ |
ಹೌದು, ವೇಗವಾಗಿ ಮತ್ತು ನಿಖರವಾಗಿ |
| ಅಂಶಗಳನ್ನು ಹುಡುಕುವುದು |
ಹೌದು, ಸಹಜ ಭಾಷೆ ಉತ್ತಮ ಕೆಲಸ ಮಾಡುತ್ತದೆ |
ಇಲ್ಲ, ಖಚಿತ ಸೆಲೆಕ್ಟರ್ಗಳು ಅಗತ್ಯ |
| ಸಮಯ ನಿಯಂತ್ರಣ |
ಇಲ್ಲ, ಕಡಿಮೆ ನಿರೀಕ್ಷಣೀಯ |
ಹೌದು, ಕಾಯುವಿಕೆ ಮತ್ತು ಮರುಪ್ರಯತ್ನಗಳ ಬೆರೆಗಿನ ನಿಯಂತ್ರಣ |
| ಸಂಕೀರ್ಣ ಕಾರ್ಯವಾಹಕರು |
ಹೌದು, ಅಪ್ರತೀಕ್ಷಿತ UI ಸ್ಥಿತಿಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ |
ಇಲ್ಲ, ಸ್ಪಷ್ಟ ಸಲಹಾ ಪ್ರಕ್ರಿಯೆ ಮುಖ್ಯ |
Browser-Use ಉತ್ತಮ ಅಭ್ಯಾಸಗಳು
- ಅನ್ವೇಷಣೆ ಮತ್ತು ಡೈನಾಮಿಕ್ ನ್ಯಾವಿಗೇಶನ್ ಗೆ ಏಜೆಂಟ್ ಮೂಲಕ ಆರಂಭಿಸಿ.
- ಕ್ರಿಯೆಗಳು ನಿರೀಕ್ಷಿತವಾಗಿದ್ದಾಗ ನೇರ ಪುಟ ನಿಯಂತ್ರಣಕ್ಕೆ ಬದಲಾಯಿಸಿ.
- ತೆಗೆಯಲಾದ ಡೇಟಾ ಮಾನ್ಯ ಮತ್ತು ಟೈಪ್-ಸೆಫಾಗಿರಲು ಸಂರಚಿತ ಔಟ್ಪುಟ್ ಮಾದರಿಗಳನ್ನು ಬಳಸಿ.
- ದೃಶ್ಯ UI ಬದಲಾವಣೆಗೆ ಮುಂಚಿತವಾಗಿ ಕಾರ್ಯಗಳು ನಂತರ ಸಮಯವಿಡಿಕೆ ಸೇರಿಸಿ.
- ವಿಫಲವಾದಾಗ ಡಿಬಗ್ ಸುಲಭವಾಗಿಸಲು ಸ್ಕ್ರೀನ್ಶಾಟ್ಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳಿ.
- ವೆಬ್ಸೈಟ್ಗಳು ಬದಲಾಗಬಹುದೆಂದು ನಿರೀಕ್ಷಿಸಿ ಮತ್ತು ಪಾಪ್ಅಪ್ಗಳ ಹಾಗೂ ವಿನ್ಯಾಸ ಬದಲಾವಣೆಗಳಿಗೆ ಬ್ಯಕ್ಅಪ್ ಯೋಜನೆಗಳನ್ನು ಹೊಂದಿಸು.
- ಲವಚಿಕೆ ಮತ್ತು ನಿಖರತೆ ಎರಡನ್ನೂ ಪಡೆಯಲು ಏಜೆಂಟ್ ಮತ್ತು ಬ್ಯಾಟರ್ ಮಾದರಿಗಳನ್ನು ಹೇಸರಿಸಿ.
ನೈuju್ತುಕಂಠಲ ಲೋಕ ಅಪ್ಲಿಕೆಶನ್ಗಳು
- ಪ್ರಯಾಣ ಕಾಯ್ದಿರಿಸುವಿಕೆ ಮತ್ತು ಬೆಲೆ ನಿಗಾವಣಿ
- ಇ-ಕಾಮರ್ಸ್ ಬೆಲೆ ಹೋಲಿಕೆ ಮತ್ತು ಲಭ್ಯತೆ ಪರಿಶೀಲನೆಗಳು
- ಡೈನಾಮಿಕ್ ವೆಬ್ಸೈಟ್ಗಳಿಂದ ರಚನೆಗೊಂಡ ಡೇಟಾ ತೆಗೆಯುವಿಕೆ
- ದೃಷ್ಟಿ ಅರಿತುಕೊಳ್ಳುವ UI ಪರೀಕ್ಷೆ ಮತ್ತು ದೃಢೀಕರಣ
- ವೆಬ್ಸೈಟ್ ನಿಗಾವಣಿ ಮತ್ತು ಎಚ್ಚರಿಕೆ
- ಹಂತ ಹಂತದ ವ್ಯಾಪ್ತಿಯ ಫಾರ್ಮ್ ಭರ್ತಿ ಅರಿವು
ಹೆಚ್ಚುವರಿ ಸಂಪನ್ಮೂಲಗಳು
ಅಸ್ಪಷ್ಟಿಕೆ:
ಈ ಪೀಠಿಕೆ AI ಭಾಷಾಂತರ ಸೇವೆ Co-op Translator ಅನ್ನು ಬಳಸಿಕೊಂಡು ಭಾಷಾ ಪರಿವರ್ತನೆ ಮಾಡಲಾಗಿದೆ. ನಾವು ಸರಿಯಾದ ಅನುವಾದಕ್ಕಾಗಿ ಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ಸ್ವಯಂಚಾಲಿತ ಭಾಷಾಂತರಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅನಿಖಿಲತೆಗಳು ಇರಬಹುದು ಎಂಬುದನ್ನು ದಯವಿಟ್ಟು ಗಮನದಲ್ಲಿ ಇಳ್ಳಿ. ಮೂಲ ಪೀಠಿಕೆ ಅದರ ಸ್ಥಳೀಯ ಭಾಷೆಯಲ್ಲಿ ಅಗ್ರ ಸ್ಥಾನಸ್ಥುತ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಅತ್ಯಂತ ಪ್ರಾಮುಖ್ಯ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಭಾಷಾಂತರಿಯನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಭಾಷಾಂತರ ಬಳಕೆಯಿಂದ ಉಂಟಾದ ಯಾವುದೇ ತಪ್ಪು ಗ್ರಹಿಕೆಗಳು ಅಥವಾ ವಿವಾದಾರ್ಥಗಳಿಗೆ ನಾವು ಜವಾಬ್ದಾರರಾಗುವುದಿಲ್ಲ.