ਕੰਪਿਊਟਰ ਯੂਜ਼ ਏਜੰਟ (CUA) ਬਣਾਉਣਾ
ਕੰਪਿਊਟਰ ਯੂਜ਼ ਏਜੰਟ ਵਰਕ ਕਿਸੇ ਵਿਅਕਤੀ ਵਾਂਗ ਹੀ ਵੈੱਬਸਾਈਟਾਂ ਨਾਲ ਇੰਟਰੈਕਟ ਕਰ ਸਕਦੇ ਹਨ: ਬਰਾਊਜ਼ਰ ਖੋਲ੍ਹ ਕੇ, ਪੰਨਾ ਜਾਂਚ ਕੇ, ਅਤੇ ਜੋ ਉਹ ਵੇਖਦੇ ਹਨ ਉਸ ਵਿੱਚੋਂ ਅਗਲਾ ਸਭ ਤੋਂ ਵਧੀਆ ਕਦਮ ਚੁਣ ਕੇ। ਇਸ ਪਾਠ ਵਿੱਚ, ਤੁਸੀਂ ਇੱਕ ਬਰਾਊਜ਼ਰ ਆਟੋਮੇਸ਼ਨ ਏਜੰਟ ਬਣਾਉਂਦੇ ਹੋ ਜੋ Airbnb ਤੇ ਖੋਜ ਕਰਦਾ ਹੈ, ਸੰਰਚਿਤ ਲਿਸਟਿੰਗ ਡੇਟਾ ਕੱਢਦਾ ਹੈ, ਅਤੇ ਸਟਾਕਹੋਮ ਵਿੱਚ ਸਭ ਤੋਂ ਸਸਤੀ ਰਹਿਣ ਦੀ ਥਾਂ ਪਛਾਣਦਾ ਹੈ।
ਇਹ ਪਾਠ Browser-Use, ਜੋ AI-ਚਲਿਤ নੈਵੀਗੇਸ਼ਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, Playwright ਅਤੇ Chrome DevTools Protocol (CDP) ਨੂੰ ਬਰਾਊਜ਼ਰ ਕੰਟਰੋਲ ਲਈ, Azure OpenAI ਨੂੰ ਵਿਜ਼ਨ-ਸਮਰੱਥ ਤਰਕਸ਼ੀਲਤਾ ਲਈ, ਅਤੇ Pydantic ਨੂੰ ਸੰਰਚਿਤ ਡੈਟਾ ਕੱਢਣ ਲਈ ਮਿਲਾ ਕੇ ਤਯਾਰ ਕੀਤਾ ਗਿਆ ਹੈ।
ਪ੍ਰਭਾਸ਼ਾ
ਇਸ ਪਾਠ ਵਿੱਚ ਸ਼ਾਮਿਲ ਹੈ:
- ਸਮਝਣਾ ਕਿ ਕਦੋਂ ਕੰਪਿਊਟਰ ਯੂਜ਼ ਏਜੰਟ API-ਕੇਵਲ ਆਟੋਮੇਸ਼ਨ ਨਾਲੋਂ ਵਧੀਆ ਹੁੰਦੇ ਹਨ
- Browser-Use ਨੂੰ Playwright ਅਤੇ CDP ਨਾਲ ਮਿਲਾ ਕੇ ਭਰੋਸੇਯੋਗ ਬਰਾਊਜ਼ਰ ਲਾਈਫਸਾਈਕਲ ਪ੍ਰਬੰਧਨ ਕਿਵੇਂ ਕਰਨਾ ਹੈ
- ਗਤੀਸ਼ੀਲ ਵੈੱਬ ਪੰਨਿਆਂ ਤੋਂ లിസ്റ്റਿੰਗ ਡੇਟਾ ਕੱਢਣ ਲਈ Azure OpenAI ਵਿਜ਼ਨ ਅਤੇ ਸੰਰਚਿਤ Pydantic ਨਤੀਜਾ ਵਰਤਣਾ
- ਫੈਸਲਾ ਕਰਨਾ ਕਿ ਕਦੋਂ ਏਜੰਟ-ਫਰਸਟ, ਐਕਟਰ-ਫਰਸਟ, ਜਾਂ ਹਾਈਬ੍ਰਿਡ ਬਰਾਊਜ਼ਰ ਆਟੋਮੇਸ਼ਨ ਵਰਕਫਲੋ ਵਰਤਣਾ ਚਾਹੀਦਾ ਹੈ
ਸਿੱਖਣ ਦੇ ਲਕਸ਼
ਇਸ ਪਾਠ ਨੂੰ ਪੂਰਾ ਕਰਨ ਤੋਂ ਬਾਅਦ, ਤੁਸੀਂ ਜਾਣੋਂਗੇ:
- Browser-Use ਨੂੰ Azure OpenAI ਅਤੇ Playwright ਨਾਲ ਸੈਟ ਅਪ ਕਿਵੇਂ ਕਰਨਾ ਹੈ
- ਇੱਕ ਬਰਾਊਜ਼ਰ ਆਟੋਮੇਸ਼ਨ ਵਰਕਫਲੋ ਬਣਾਉਣਾ ਜੋ ਇਕ ਅਸਲੀ ਵੈੱਬਸਾਈਟ ਨੂੰ ਨੈਵੀਗੇਟ ਕਰਦਾ ਹੈ ਅਤੇ ਗਤੀਸ਼ੀਲ UI ਤੱਤਾਂ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ
- ਦਰਸ਼ਾਏ ਗਏ ਪੰਨਾ ਸਮੱਗਰੀ ਤੋਂ ਲਿਖਤ ਅੰਕੜੇ ਕੱਢ ਕੇ ਉਨ੍ਹਾਂ ਨੂੰ ਬਿਜ਼ਨਸ ਲੌジਕ ਲਈ ਵਰਤਣਾ
- ਬਰਾਊਜ਼ਰ ਕੰਮ ਦੀ ਭਵਿੱਖਬਾਣੀ ਅਨੁਸਾਰ ਏਜੰਟ ਅਤੇ ਐਕਟਰ ਪੈਟਰਨ ਵਿੱਚੋਂ ਚੋਣ ਕਰਨਾ
ਕੋਡ ਉਦਾਹਰਨ
ਇਸ ਪਾਠ ਵਿੱਚ ਇੱਕ ਨੋਟਬੁੱਕ ਟਿਊਟੋਰਿਯਲ ਸ਼ਾਮਿਲ ਹੈ:
- 15-browser-user.ipynb: CDP ਉੱਤੇ ਇੱਕ Chrome ਸੈਸ਼ਨ ਸ਼ੁਰੂ ਕਰਦਾ ਹੈ, Airbnb ‘ਚ ਸਟਾਕਹੋਮ ਲਿਸਟਿੰਗ ਖੋਜਦਾ ਹੈ, Browser-Use ਵਿਜ਼ਨ ਨਾਲ ਕੀਮਤਾਂ ਕੱਢਦਾ ਹੈ, ਅਤੇ ਸਭ ਤੋਂ ਸਸਤੀ ਵਿਕਲਪ ਨੂੰ ਸੰਰਚਿਤ ਡੇਟਾ ਵਜੋਂ ਵਾਪਸ ਕਰਦਾ ਹੈ।
ਜ਼ਰੂਰੀ ਸ਼ਰਤਾਂ
- Python 3.12+
- ਤੁਹਾਡੇ ਵਾਤਾਵਰਣ ਵਿੱਚ Azure OpenAI ਡਿਪਲੌਇਮੈਂਟ ਕੰਫਿਗਰ ਕੀਤਾ ਹੋਇਆ
- Chrome ਜਾਂ Chromium ਸਥਾਨਕ ਤੌਰ ‘ਤੇ ਇੰਸਟਾਲ ਕੀਤਾ ਹੋਇਆ
- Playwright ਦੀਆਂ ਡਿਪੈਂਡੇਂਸ਼ੀਆਂ ਸਥਾਪਿਤ
- async Python ਨਾਲ ਮੁਢਲੀ ਜਾਣੂ
ਸੈਟਅਪ
ਨੋਟਬੁੱਕ ਵਿੱਚ ਵਰਤੇ ਗਏ ਪੈਕੇਜ ਇੰਸਟਾਲ ਕਰੋ:
pip install browser_use playwright python-dotenv
playwright install chromium
ਨੋਟਬੁੱਕ ਦੁਆਰਾ ਵਰਤੇ ਜਾਂਦੇ Azure OpenAI ਵਾਤਾਵਰਣ ਚਰ (environment variables) ਸੈਟ ਕਰੋ:
AZURE_OPENAI_ENDPOINT=...
AZURE_OPENAI_API_KEY=...
AZURE_OPENAI_CHAT_DEPLOYMENT_NAME=...
# ਵਿਕਲਪੀ: ਛੱਡ ਦਿਤਾ ਜਾਣ 'ਤੇ ਇਹ ਆਖਰੀ API ਵਰਜਨ ਨੂੰ ਮੂਲਤ: ਮੰਨਿਆ ਜਾਂਦਾ ਹੈ
AZURE_OPENAI_API_VERSION=...
ਵਿਕਾਸ-ਧਾਂਚਾ ਦਾ ਸਾਰ
ਨੋਟਬੁੱਕ ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਬਰਾਊਜ਼ਰ ਆਟੋਮੇਸ਼ਨ ਵਰਕਫਲੋ ਦਿਖਾਉਂਦਾ ਹੈ:
- Chrome CDP ਸਮਰਥਿਤ ਨਾਲ ਸ਼ੁਰੂ ਹੁੰਦਾ ਹੈ ਤਾਂ ਜੋ Playwright ਅਤੇ Browser-Use ਦੋਹਾਂ ਵੱਖ-ਵੱਖ ਬਰਾਊਜ਼ਰ ਸੈਸ਼ਨ ਸਾਂਝੇ ਕਰ ਸਕਣ।
- ਇੱਕ Browser-Use ਏਜੰਟ ਖੁਲ੍ਹੇ ਨੈਵੀਗੇਸ਼ਨ ਕੰਮ ਸੰਭਾਲਦਾ ਹੈ ਜਿਵੇਂ Airbnb ਖੋਲ੍ਹਣਾ, ਪਾਪ-ਅੱਪ ਰੱਦ ਕਰਨਾ, ਅਤੇ ਸਟਾਕਹੋਮ ਲਈ ਖੋਜ ਕਰਨਾ।
- ਚਾਲੂ ਪੰਨੇ ਨੂੰ ਸੰਰਚਿਤ Pydantic ਸਕੀਮਾ ਨਾਲ ਜਾਂਚਿਆ ਜਾਂਦਾ ਹੈ ਤਾਂ ਜੋ ਲਿਸਟਿੰਗ ਦਾ ਸਿਰਲੇਖ, ਰਾਤਾਨੁਕ ਪ੍ਰਾਈਸ, ਰੇਟਿੰਗ, ਅਤੇ URL ਕੱਢੇ ਜਾ ਸਕਣ।
- Python ਲੌਜਿਕ ਕੱਢੇ ਗਏ ਲਿਸਟਿੰਗਾਂ ਦੀ ਤੁਲਨਾ ਕਰਦਾ ਹੈ ਅਤੇ ਸਸਤੇ ਨਤੀਜੇ ਨੂੰ ਚਿੰਨ੍ਹਿਤ ਕਰਦਾ ਹੈ।
ਇਹ ਤਰੀਕਾ ਮੋੜ-ਮੁੜ ਬਦਲਣ ਵਾਲੇ ਨੈਵੀਗੇਸ਼ਨ ਲਈ Browser-Use ਵਿੱਚ ਜੋ ਵਿਜ਼ਨ-ਅਧਾਰਿਤ ਤਰਕਸ਼ੀਲਤਾ ਹੈ, ਉਸਨੂੰ ਜਾਰੀ ਰੱਖਦਾ ਹੈ ਅਤੇ ਜਦੋਂ ਲੋੜ ਹੁੰਦੀ ਹੈ ਤਾਂ ਤੁਹਾਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਬਰਾਊਜ਼ਰ ਕੰਟਰੋਲ ਵੀ ਦਿੰਦਾ ਹੈ।
ਮੁੱਖ ਨੁਕਤੇ ਅਤੇ ਸੁਝਾਅ
ਕਦੋਂ ਏਜੰਟ ਵਰਤਣਾ ਹੈ ਤੇ ਕਦੋਂ ਐਕਟਰ
| ਸਥਿਤੀ |
ਏਜੰਟ ਵਰਤੋ |
ਐਕਟਰ ਵਰਤੋ |
| ਗਤੀਸ਼ੀਲ ਲੇਆਊਟ |
ਹਾਂ, AI ਪੰਨਾ ਬਦਲਾਵਾਂ ਨਾਲ ਅਨੁਕੂਲ ਹੋ ਸਕਦਾ ਹੈ |
ਨਹੀਂ, ਚੁੱਕ-ਚੁੱਕ ਸਿਲੈਕਟਰ ਟੁੱਟ ਸਕਦੇ ਹਨ |
| ਜਾਣਿਆ ਹੋਇਆ ਢਾਂਚਾ |
ਨਹੀਂ, ਏਜੰਟ ਸਿੱਧਾ ਕੰਟਰੋਲ ਨਾਲੋਂ ਹੌਲੀ ਹੁੰਦੀ ਹੈ |
ਹਾਂ, ਤੇਜ਼ ਅਤੇ ਸਹੀ |
| ਤੱਤ ਲੱਭਣਾ |
ਹਾਂ, ਕੁਦਰਤੀ ਬੋਲੀ ਚੰਗੀ ਸਹਾਇਤਾ ਕਰਦੀ ਹੈ |
ਨਹੀਂ, ਸਹੀ ਸਿਲੈਕਟਰ ਲੋੜੀਂਦੇ ਹਨ |
| ਸਮੇਂ ਦਾ ਕੰਟਰੋਲ |
ਨਹੀਂ, ਘੱਟ ਭਵਿੱਖਬਾਣੀ ਯੋਗ |
ਹਾਂ, ਉਡੀਕ ਅਤੇ ਦੁਹਰਾਈਆਂ ‘ਤੇ ਪੂਰਾ ਕਬੂੂ |
| ਜਟਿਲ ਵਰਕਫਲੋ |
ਹਾਂ, ਅਣਅੰਦਾਜ਼ਾ UI ਹਾਲਤਾਂ ਸੰਭਾਲਦਾ ਹੈ |
ਨਹੀਂ, ਸਪਸ਼ਟ ਬ੍ਰਾਂਚਿੰਗ ਲੋੜੀਂਦੀ ਹੈ |
Browser-Use ਲਈ ਵਧੀਆ ਅਮਲ
- ਖੋਜ ਅਤੇ ਗਤੀਸ਼ੀਲ ਨੈਵੀਗੇਸ਼ਨ ਲਈ ਏਜੰਟ ਨਾਲ ਸ਼ੁਰੂ ਕਰੋ।
- ਜਦੋਂ ਇੰਟਰੈਕਸ਼ਨ ਪੂਰਵਾਨੁਮਾਨੀਯ ਬਣ ਜਾਂਦੀ ਹੈ ਤਾਂ ਸਿੱਧੇ ਪੰਨੇ ਦੇ ਕੰਟਰੋਲ ‘ਤੇ ਸੁਇਚ ਕਰੋ।
- ਕੱਢੇ ਗਏ ਡੇਟਾ ਨੂੰ ਵੈਰੀਫਾਇਡ ਅਤੇ ਟਾਈਪ-ਸੇਫ ਬਣਾਉਣ ਲਈ ਸੰਰਚਿਤ ਆਉਟਪੁੱਟ ਮਾਡਲ ਵਰਤੋਂ।
- ਉਹਨਾਂ ਕਾਰਵਾਈਆਂ ਤੋਂ ਬਾਅਦ ਰੁਕਾਵਟਾਂ ਜੋ ਦਰਸ਼ਨੀ UI ਬਦਲਾਅ ਚਾਲੂ ਕਰਦੀਆਂ ਹਨ ਦੇਰ ਸ਼ਾਮਿਲ ਕਰੋ।
- ਫੇਲ ਦੀ ਸਥਿਤੀ ਵਿੱਚ ਡਿਬੱਗਿੰਗ ਵਾਸਤੇ ਮਨਫੜੋਂ ਸਨੈਪਸ਼ੌਟ ਲਓ।
- ਵੈੱਬਸਾਈਟ ਬਦਲਣ ਦੀ ਉਮੀਦ ਰੱਖੋ ਅਤੇ ਪਾਪ-ਅੱਪ ਅਤੇ ਲੇਆਊਟ ਬਦਲਾਅ ਲਈ ਫਾਲਬੈਕ ਰਣਨੀਤੀਆਂ ਤਿਆਰ ਕਰੋ।
- ਏਜੰਟ ਅਤੇ ਐਕਟਰ ਪਾਰੇਟਰਨ ਨੂੰ ਮਿਲਾ ਕੇ ਲਚਕੀਲਾਪਣ ਅਤੇ ਸਹੀਤਾ ਦੋਹਾਂ ਹਾਸਲ ਕਰੋ।
ਅਸਲੀ ਜ਼ਿੰਦਗੀ ਦੇ ਅਰਜ਼ੀਆਂ
- ਯਾਤਰਾ ਬੁਕਿੰਗ ਅਤੇ ਕੀਮਤ ਨਿਗਰਾਨੀ
- ਈ-ਕਾਮਰਸ ਕੀਮਤ ਦੀ ਤੁਲਨਾ ਅਤੇ ਉਪਲਬਧਤਾ ਜਾਂਚ
- ਗਤੀਸ਼ੀਲ ਵੈੱਬਸਾਈਟਾਂ ਤੋਂ ਸੰਰਚਿਤ ਡੈਟਾ ਕੱਢਣਾ
- ਵਿਜ਼ਨ-ਅਧਾਰਿਤ UI ਟੈਸਟਿੰਗ ਅਤੇ ਵਰਿਫ਼ਿਕੇਸ਼ਨ
- ਵੈੱਬਸਾਈਟ ਨਿਗਰਾਨੀ ਅਤੇ ਐਲਰਟਿੰਗ
- ਬਹੁ-ਕਦਮੀ ਪ੍ਰਕਿਰਿਆਵਾਂ ਵਿੱਚ ਬੁੱਧੀਮਾਨ ਫਾਰਮ ਭਰਨ
ਹੋਰ ਸਰੋਤ
ਅਸਵੀਕਾਰੋਤਾ:
ਇਹ ਦਸਤਾਵੇਜ਼ ਏ.ਆਈ. ਅਨੁਵਾਦ ਸੇਵਾ Co-op Translator ਦੀ ਵਰਤੋਂ ਨਾਲ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ ਹੈ। ਜਦੋਂ ਕਿ ਅਸੀਂ ਸਹੀਤ ਲਈ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹਾਂ, ਕਿਰਪਾ ਕਰਕੇ ਧਿਆਨ ਰੱਖੋ ਕਿ ਸਵੈਚਾਲਿਤ ਅਨੁਵਾਦਾਂ ਵਿੱਚ ਗਲਤੀਆਂ ਜਾਂ ਅਸੁਚਿਤਤਾ ਹੋ ਸਕਦੀ ਹੈ। ਮੂਲ ਭਾਸ਼ਾ ਵਿੱਚ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਪ੍ਰਮਾਣਿਕ ਸਰੋਤ ਮੰਨਿਆ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਣ ਜਾਣਕਾਰੀ ਲਈ, ਪੇਸ਼ੇਵਰ ਮਨੁੱਖੀ ਅਨੁਵਾਦ ਦੀ ਸਿਫਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਅਸੀਂ ਇਸ ਅਨੁਵਾਦ ਦੇ ਉਪਯੋਗ ਤੋਂ ਉੱਫਜਣ ਵਾਲੀ ਕਿਸੇ ਵੀ ਗਲਤਫਹਿਮੀ ਜਾਂ ਅਸੁਮਝ ਤੋਂ ਜ਼ਿੰਮੇਵਾਰ ਨਹੀਂ ਹਾਂ।