AI ಏಜೆಂಟ್ಗಳು ಪ್ರಯೋಗಾತ್ಮಕ ಮಾದರಿಗಳಿಂದ ನೈಜ ಜಗತ್ತಿನ ಅನ್ವಯಿಕತೆಗೆ ಸಾಗಿದಂತೆ, ಅವುಗಳ ವರ್ತನೆ, ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಗಮನಿಸುವುದು ಮತ್ತು ಅವುಗಳ ಔಟ್ಪುಟ್ಗಳನ್ನು ವ್ಯವಸ್ಥಿತವಾಗಿ ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು ಮುಖ್ಯವಾಗುತ್ತದೆ.
ಈ ಪಾಠವನ್ನು ಪೂರ್ಣಗೊಳಿಸಿದ ನಂತರ, ನೀವು ತಿಳಿಯುವಿರಿ/ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಿರಿ:
ನಿಮ್ಮ “ಕಪ್ಪು ಡಬ್ಬಿ” ಏಜೆಂಟ್ಗಳನ್ನು ಪಾರದರ್ಶಕ, ನಿರ್ವಹಣೀಯ ಮತ್ತು ನಂಬಲರ್ಹ ವ್ಯವಸ್ಥೆಗಳಲ್ಲಿ ಪರಿವರ್ತಿಸಲು ಅಗತ್ಯವಾದ ಜ್ಞಾನವನ್ನು ನಿಮಗೆ ಒದಗಿಸುವುದು ಗುರಿಯಾಗಿದೆ.
ಗಮನಿಸಿ: ಸುರಕ್ಷಿತ ಮತ್ತು ನಂಬಲರ್ಹ AI ಏಜೆಂಟ್ಗಳನ್ನು ನಿಯೋಜಿಸುವುದು ಮುಖ್ಯ. ನಂಬಲರ್ಹ AI ಏಜೆಂಟ್ಗಳನ್ನು ನಿರ್ಮಿಸುವುದು ಪಾಠವನ್ನು ಕೂಡ ಪರಿಶೀಲಿಸಿ.
Langfuse ಅಥವಾ Azure AI Foundry ಮುಂತಾದ ಗಮನಾರ್ಹತೆಯ ಸಾಧನಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಏಜೆಂಟ್ ರನ್ಗಳನ್ನು ಟ್ರೇಸ್ಗಳು ಮತ್ತು ಸ್ಪ್ಯಾನ್ಗಳಾಗಿ ಪ್ರತಿನಿಧಿಸುತ್ತವೆ.

ಗಮನಾರ್ಹತೆಯಿಲ್ಲದೆ, AI ಏಜೆಂಟ್ “ಕಪ್ಪು ಡಬ್ಬಿ”ಯಂತೆ ಕಾಣಬಹುದು - ಅದರ ಆಂತರಿಕ ಸ್ಥಿತಿ ಮತ್ತು ತಾರ್ಕಿಕತೆ ಅಸ್ಪಷ್ಟವಾಗಿರುತ್ತದೆ, ಇದು ಸಮಸ್ಯೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಅಥವಾ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಆಪ್ಟಿಮೈಸ್ ಮಾಡಲು ಕಷ್ಟಕರವಾಗುತ್ತದೆ. ಗಮನಾರ್ಹತೆಯೊಂದಿಗೆ, ಏಜೆಂಟ್ಗಳು “ಗ್ಲಾಸ್ ಬಾಕ್ಸ್” ಆಗಿ ಮಾರ್ಪಡುತ್ತವೆ, ಇದು ನಂಬಿಕೆಯನ್ನು ನಿರ್ಮಿಸಲು ಮತ್ತು ಅವು ಉದ್ದೇಶಿತ ರೀತಿಯಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿರುವುದನ್ನು ಖಚಿತಪಡಿಸಲು ಅಗತ್ಯವಾದ ಪಾರದರ್ಶಕತೆಯನ್ನು ಒದಗಿಸುತ್ತದೆ.
AI ಏಜೆಂಟ್ಗಳನ್ನು ಉತ್ಪಾದನಾ ಪರಿಸರಗಳಿಗೆ ಪರಿವರ್ತಿಸುವುದು ಹೊಸ ಸವಾಲುಗಳು ಮತ್ತು ಅಗತ್ಯಗಳನ್ನು ಪರಿಚಯಿಸುತ್ತದೆ. ಗಮನಾರ್ಹತೆ “ಅದ್ಭುತ”ವಲ್ಲ, ಆದರೆ ಪ್ರಮುಖ ಸಾಮರ್ಥ್ಯವಾಗಿದೆ:
ಏಜೆಂಟ್ ವರ್ತನೆಯನ್ನು ಗಮನಿಸಲು ಮತ್ತು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು, ವಿವಿಧ ಮೆಟ್ರಿಕ್ಗಳು ಮತ್ತು ಸಂಕೇತಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಬೇಕು. ಏಜೆಂಟ್ನ ಉದ್ದೇಶವನ್ನು ಆಧರಿಸಿ ನಿರ್ದಿಷ್ಟ ಮೆಟ್ರಿಕ್ಗಳು ಬದಲಾಗಬಹುದು, ಆದರೆ ಕೆಲವು ಸಾಮಾನ್ಯವಾಗಿ ಮುಖ್ಯವಾಗಿರುತ್ತವೆ.
ಇಲ್ಲಿ ಗಮನಾರ್ಹತೆಯ ಸಾಧನಗಳು ಟ್ರ್ಯಾಕ್ ಮಾಡುವ ಸಾಮಾನ್ಯ ಮೆಟ್ರಿಕ್ಗಳಿವೆ:
ವಿಲಂಬ: ಏಜೆಂಟ್ ಎಷ್ಟು ಶೀಘ್ರವಾಗಿ ಪ್ರತಿಕ್ರಿಯಿಸುತ್ತದೆ? ದೀರ್ಘ ನಿರೀಕ್ಷಾ ಸಮಯಗಳು ಬಳಕೆದಾರ ಅನುಭವವನ್ನು ಹಾನಿಗೊಳಿಸುತ್ತವೆ. ಏಜೆಂಟ್ ರನ್ಗಳನ್ನು ಟ್ರೇಸ್ ಮಾಡುವ ಮೂಲಕ ಕಾರ್ಯ ಮತ್ತು ಪ್ರತ್ಯೇಕ ಹಂತಗಳ ವಿಲಂಬವನ್ನು ಅಳೆಯಬೇಕು. ಉದಾಹರಣೆಗೆ, ಎಲ್ಲಾ ಮಾದರಿ ಕರೆಗಳಿಗೆ 20 ಸೆಕೆಂಡುಗಳನ್ನು ತೆಗೆದುಕೊಳ್ಳುವ ಏಜೆಂಟ್ ಅನ್ನು ವೇಗವಾದ ಮಾದರಿಯನ್ನು ಬಳಸುವ ಮೂಲಕ ಅಥವಾ ಮಾದರಿ ಕರೆಗಳನ್ನು ಸಮಾಂತರವಾಗಿ ನಡೆಸುವ ಮೂಲಕ ವೇಗಗೊಳಿಸಬಹುದು.
ವೆಚ್ಚಗಳು: ಪ್ರತಿ ಏಜೆಂಟ್ ರನ್ಗೆ ವೆಚ್ಚ ಎಷ್ಟು? AI ಏಜೆಂಟ್ಗಳು ಪ್ರತಿ ಟೋಕನ್ಗೆ ಬಿಲ್ಲಿಂಗ್ ಮಾಡಲಾಗುವ LLM ಕರೆಗಳು ಅಥವಾ ಬಾಹ್ಯ APIಗಳ ಮೇಲೆ ಅವಲಂಬಿತವಾಗಿರುತ್ತವೆ. ಸಾಮಾನ್ಯ ಸಾಧನ ಬಳಕೆ ಅಥವಾ ಅನೇಕ ಪ್ರಾಂಪ್ಟ್ಗಳು ವೆಚ್ಚವನ್ನು ವೇಗವಾಗಿ ಹೆಚ್ಚಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಏಜೆಂಟ್ LLM ಅನ್ನು ಐದು ಬಾರಿ ಕರೆಸಿದರೆ, ನೀವು ವೆಚ್ಚವು ನ್ಯಾಯಸಂಗತವಾಗಿದೆಯೇ ಅಥವಾ ಕರೆಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಡಿಮೆ ಮಾಡಬಹುದೇ ಅಥವಾ ಕಡಿಮೆ ವೆಚ್ಚದ ಮಾದರಿಯನ್ನು ಬಳಸಬಹುದೇ ಎಂದು ಅಂದಾಜಿಸಬೇಕು. ರಿಯಲ್-ಟೈಮ್ ಮಾನಿಟರಿಂಗ್ ಅಪ್ರತೀಕ್ಷಿತ ಏರಿಕೆಗಳನ್ನು (ಉದಾ: ಅತಿಯಾದ API ಲೂಪ್ಗಳನ್ನು ಉಂಟುಮಾಡುವ ದೋಷಗಳು) ಗುರುತಿಸಲು ಸಹ ಸಹಾಯ ಮಾಡುತ್ತದೆ.
ಅಭ್ಯರ್ಥನೆ ದೋಷಗಳು: ಏಜೆಂಟ್ ಎಷ್ಟು ಅಭ್ಯರ್ಥನೆಗಳನ್ನು ವಿಫಲಗೊಳಿಸಿತು? ಇದರಲ್ಲಿ API ದೋಷಗಳು ಅಥವಾ ವಿಫಲವಾದ ಸಾಧನ ಕರೆಗಳು ಸೇರಿರಬಹುದು. ಉತ್ಪಾದನೆಯಲ್ಲಿ ಈ ದೋಷಗಳ ವಿರುದ್ಧ ನಿಮ್ಮ ಏಜೆಂಟ್ ಅನ್ನು ಹೆಚ್ಚು ಸ್ಥಿರಗೊಳಿಸಲು, ನೀವು ಫಾಲ್ಬ್ಯಾಕ್ಗಳು ಅಥವಾ ಮರುಪ್ರಯತ್ನಗಳನ್ನು ಹೊಂದಿಸಬಹುದು. ಉದಾ: LLM ಪೂರೈಕೆದಾರ A ಡೌನ್ ಆಗಿದ್ದರೆ, ನೀವು ಬ್ಯಾಕಪ್ ಆಗಿ LLM ಪೂರೈಕೆದಾರ B ಗೆ ಬದಲಾಯಿಸುತ್ತೀರಿ.
ಬಳಕೆದಾರ ಪ್ರತಿಕ್ರಿಯೆ: ನೇರ ಬಳಕೆದಾರ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಜಾರಿಗೆ ತರುವುದರಿಂದ ಅಮೂಲ್ಯವಾದ ಒಳನೋಟಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಇದರಲ್ಲಿ ಸ್ಪಷ್ಟ ರೇಟಿಂಗ್ಗಳು (👍ಅಂಗೀಕಾರ/👎ನಿರಾಕಾರ, ⭐1-5 ನಕ್ಷತ್ರಗಳು) ಅಥವಾ ಪಠ್ಯ ಕಾಮೆಂಟ್ಗಳು ಸೇರಿರಬಹುದು. ನಿರಂತರ ನಕಾರಾತ್ಮಕ ಪ್ರತಿಕ್ರಿಯೆ ನಿಮ್ಮನ್ನು ಎಚ್ಚರಿಸಬೇಕು, ಏಕೆಂದರೆ ಇದು ಏಜೆಂಟ್ ನಿರೀಕ್ಷಿತ ರೀತಿಯಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿಲ್ಲ ಎಂಬುದರ ಸಂಕೇತವಾಗಿದೆ.
ಅಪ್ರತ್ಯಕ್ಷ ಬಳಕೆದಾರ ಪ್ರತಿಕ್ರಿಯೆ: ಬಳಕೆದಾರರ ವರ್ತನೆಗಳು ನೇರ ರೇಟಿಂಗ್ಗಳಿಲ್ಲದೆ ಸಹ ಅಪ್ರತ್ಯಕ್ಷ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ಒದಗಿಸುತ್ತವೆ. ಇದರಲ್ಲಿ ತಕ್ಷಣದ ಪ್ರಶ್ನೆ ಪುನಃಸೂಚನೆ, ಪುನಃಪ್ರಶ್ನೆಗಳು ಅಥವಾ ಮರುಪ್ರಯತ್ನ ಬಟನ್ ಕ್ಲಿಕ್ ಮಾಡುವುದು ಸೇರಿರಬಹುದು. ಉದಾ: ಬಳಕೆದಾರರು ಪುನಃ ಪುನಃ ಅದೇ ಪ್ರಶ್ನೆಯನ್ನು ಕೇಳುತ್ತಿರುವುದನ್ನು ನೀವು ನೋಡಿದರೆ, ಇದು ಏಜೆಂಟ್ ನಿರೀಕ್ಷಿತ ರೀತಿಯಲ್ಲಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿಲ್ಲ ಎಂಬುದರ ಸಂಕೇತವಾಗಿದೆ.
ನಿಖರತೆ: ಏಜೆಂಟ್ ಎಷ್ಟು ಬಾರಿ ಸರಿಯಾದ ಅಥವಾ ಇಚ್ಛಿತ ಔಟ್ಪುಟ್ಗಳನ್ನು ಉತ್ಪಾದಿಸುತ್ತದೆ? ನಿಖರತೆಯ ವ್ಯಾಖ್ಯಾನಗಳು ಬದಲಾಗುತ್ತವೆ (ಉದಾ: ಸಮಸ್ಯೆ ಪರಿಹಾರ ನಿಖರತೆ, ಮಾಹಿತಿಯ ಹಿಂಪಡೆಯುವ ನಿಖರತೆ, ಬಳಕೆದಾರ ತೃಪ್ತಿ). ನಿಮ್ಮ ಏಜೆಂಟ್ಗೆ ಯಶಸ್ಸು ಹೇಗೆ ಕಾಣುತ್ತದೆ ಎಂಬುದನ್ನು ವ್ಯಾಖ್ಯಾನಿಸುವುದು ಮೊದಲ ಹೆಜ್ಜೆ. ನೀವು ಸ್ವಯಂಚಾಲಿತ ತಪಾಸಣೆಗಳು, ಮೌಲ್ಯಮಾಪನ ಅಂಕಗಳು, ಅಥವಾ ಕಾರ್ಯ ಪೂರ್ಣಗೊಳಿಸುವ ಲೇಬಲ್ಗಳ ಮೂಲಕ ನಿಖರತೆಯನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಬಹುದು. ಉದಾಹರಣೆಗೆ, ಟ್ರೇಸ್ಗಳನ್ನು “ಯಶಸ್ವಿ” ಅಥವಾ “ವಿಫಲ” ಎಂದು ಗುರುತಿಸುವುದು.
ಸ್ವಯಂಚಾಲಿತ ಮೌಲ್ಯಮಾಪನ ಮೆಟ್ರಿಕ್ಗಳು: ನೀವು ಸ್ವಯಂಚಾಲಿತ ಮೌಲ್ಯಮಾಪನಗಳನ್ನು ಹೊಂದಿಸಬಹುದು. ಉದಾಹರಣೆಗೆ, ಏಜೆಂಟ್ ಔಟ್ಪುಟ್ ಸಹಾಯಕ, ನಿಖರ ಅಥವಾ ಇಲ್ಲ ಎಂದು ಅಂಕಗಳನ್ನು ನೀಡಲು LLM ಅನ್ನು ಬಳಸಬಹುದು. ಏಜೆಂಟ್ನ ವಿವಿಧ ಅಂಶಗಳನ್ನು ಅಂಕಗಳನ್ನು ನೀಡಲು ಸಹಾಯ ಮಾಡುವ ಹಲವಾರು ಓಪನ್ ಸೋರ್ಸ್ ಲೈಬ್ರರಿಗಳೂ ಇವೆ. ಉದಾ: RAGAS RAG ಏಜೆಂಟ್ಗಳಿಗೆ ಅಥವಾ LLM Guard ಹಾನಿಕಾರಕ ಭಾಷೆ ಅಥವಾ ಪ್ರಾಂಪ್ಟ್ ಇಂಜೆಕ್ಷನ್ ಪತ್ತೆಹಚ್ಚಲು.
ಆಚರಣೆಯಲ್ಲಿ, ಈ ಮೆಟ್ರಿಕ್ಗಳ ಸಂಯೋಜನೆ AI ಏಜೆಂಟ್ನ ಆರೋಗ್ಯದ ಉತ್ತಮ ವ್ಯಾಪ್ತಿಯನ್ನು ಒದಗಿಸುತ್ತದೆ. ಈ ಅಧ್ಯಾಯದ ಉದಾಹರಣಾ ನೋಟ್ಬುಕ್ ನಲ್ಲಿ, ಈ ಮೆಟ್ರಿಕ್ಗಳು ನೈಜ ಉದಾಹರಣೆಗಳಲ್ಲಿ ಹೇಗೆ ಕಾಣಿಸುತ್ತವೆ ಎಂಬುದನ್ನು ನಾವು ತೋರಿಸುತ್ತೇವೆ, ಆದರೆ ಮೊದಲು, ಸಾಮಾನ್ಯ ಮೌಲ್ಯಮಾಪನ ಕಾರ್ಯಪ್ರವಾಹ ಹೇಗಿರುತ್ತದೆ ಎಂಬುದನ್ನು ನಾವು ಕಲಿಯುತ್ತೇವೆ.
ಟ್ರೇಸಿಂಗ್ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಲು, ನೀವು ನಿಮ್ಮ ಕೋಡ್ ಅನ್ನು ಸಾಧನಗೊಳಿಸಬೇಕು. ಗುರಿಯು ಏಜೆಂಟ್ ಕೋಡ್ ಅನ್ನು ಟ್ರೇಸ್ಗಳು ಮತ್ತು ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಹೊರಹಾಕಲು ಸಾಧನಗೊಳಿಸುವುದು, ಅವುಗಳನ್ನು ಗಮನಾರ್ಹತೆಯ ವೇದಿಕೆ ಮೂಲಕ ಸೆರೆಹಿಡಿಯಲು, ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲು, ಮತ್ತು ದೃಶ್ಯೀಕರಿಸಲು ಸಾಧ್ಯವಾಗುತ್ತದೆ.
ಓಪನ್ಟೆಲಿಮೆಟ್ರಿ (OTel): ಓಪನ್ಟೆಲಿಮೆಟ್ರಿ LLM ಗಮನಾರ್ಹತೆಯ ಉದ್ಯಮದ ಮಾನದಂಡವಾಗಿ ಹೊರಹೊಮ್ಮಿದೆ. ಇದು ಟೆಲಿಮೆಟ್ರಿ ಡೇಟಾವನ್ನು ಉತ್ಪಾದಿಸಲು, ಸಂಗ್ರಹಿಸಲು, ಮತ್ತು ರಫ್ತು ಮಾಡಲು APIಗಳು, SDKಗಳು, ಮತ್ತು ಸಾಧನಗಳ ಸಮೂಹವನ್ನು ಒದಗಿಸುತ್ತದೆ.
ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಏಜೆಂಟ್ ಫ್ರೇಮ್ವರ್ಕ್ಗಳನ್ನು ಸುತ್ತುವರೆಯುವ ಮತ್ತು ಓಪನ್ಟೆಲಿಮೆಟ್ರಿ ಸ್ಪ್ಯಾನ್ಗಳನ್ನು ಗಮನಾರ್ಹತೆಯ ಸಾಧನಕ್ಕೆ ರಫ್ತು ಮಾಡಲು ಸುಲಭವಾಗುವ ಅನೇಕ ಸಾಧನಗೊಳಿಸುವ ಲೈಬ್ರರಿಗಳಿವೆ. OpenLit ಸಾಧನಗೊಳಿಸುವ ಲೈಬ್ರರಿ ಬಳಸಿ AutoGen ಏಜೆಂಟ್ ಅನ್ನು ಸಾಧನಗೊಳಿಸುವ ಉದಾಹರಣೆ ಕೆಳಗಿದೆ:
import openlit
openlit.init(tracer = langfuse._otel_tracer, disable_batch = True)
ಈ ಅಧ್ಯಾಯದ ಉದಾಹರಣಾ ನೋಟ್ಬುಕ್ AutoGen ಏಜೆಂಟ್ ಅನ್ನು ಸಾಧನಗೊಳಿಸುವುದನ್ನು ತೋರಿಸುತ್ತದೆ.
ಮಾನುಯಲ್ ಸ್ಪ್ಯಾನ್ ರಚನೆ: ಸಾಧನಗೊಳಿಸುವ ಲೈಬ್ರರಿ ಉತ್ತಮ ಮೂಲಭೂತವನ್ನು ಒದಗಿಸಿದರೂ, ಹೆಚ್ಚಿನ ವಿವರವಾದ ಅಥವಾ ಕಸ್ಟಮ್ ಮಾಹಿತಿಯ ಅಗತ್ಯವಿರುವ ಸಂದರ್ಭಗಳು ಇರುತ್ತವೆ. ನೀವು ಕಸ್ಟಮ್ ಅಪ್ಲಿಕೇಶನ್ ಲಾಜಿಕ್ ಸೇರಿಸಲು ಸ್ಪ್ಯಾನ್ಗಳನ್ನು ಕೈಯಾರೆ ರಚಿಸಬಹುದು. ಮುಖ್ಯವಾಗಿ, ಅವುಗಳನ್ನು ಕಸ್ಟಮ್ ಗುಣಲಕ್ಷಣಗಳೊಂದಿಗೆ (ಟ್ಯಾಗ್ಗಳು ಅಥವಾ ಮೆಟಾಡೇಟಾ ಎಂದೂ ಕರೆಯಲಾಗುತ್ತದೆ) ಶ್ರೀಮಂತಗೊಳಿಸಬಹುದು. ಈ ಗುಣಲಕ್ಷಣಗಳಲ್ಲಿ ವ್ಯಾಪಾರ-ನಿರ್ದಿಷ್ಟ ಡೇಟಾ, ಮಧ್ಯಂತರ ಲೆಕ್ಕಾಚಾರಗಳು, ಅಥವಾ ಡಿಬಗಿಂಗ್ ಅಥವಾ ವಿಶ್ಲೇಷಣೆಗೆ ಉಪಯುಕ್ತವಾಗಬಹುದಾದ ಯಾವುದೇ ಪ್ರಾಸಂಗಿಕತೆ, ಉದಾ: user_id, session_id, ಅಥವಾ model_version ಸೇರಿರಬಹುದು.
Langfuse Python SDK ಬಳಸಿ ಟ್ರೇಸ್ಗಳು ಮತ್ತು ಸ್ಪ್ಯಾನ್ಗಳನ್ನು ಕೈಯಾರೆ ರಚಿಸುವ ಉದಾಹರಣೆ:
from langfuse import get_client
langfuse = get_client()
span = langfuse.start_span(name="my-span")
span.end()
ಗಮನಾರ್ಹತೆ ನಮಗೆ ಮೆಟ್ರಿಕ್ಗಳನ್ನು ನೀಡುತ್ತದೆ, ಆದರೆ ಮೌಲ್ಯಮಾಪನವು ಆ ಡೇಟಾವನ್ನು ವಿಶ್ಲೇಷಿಸುವ ಪ್ರಕ್ರಿಯೆ (ಮತ್ತು ಪರೀಕ್ಷೆಗಳನ್ನು ನಡೆಸುವುದು) ಏಜೆಂಟ್ ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತಿದೆ ಮತ್ತು ಅದನ್ನು ಹೇಗೆ ಸುಧಾರಿಸಬಹುದು ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಲು. ಮತ್ತೊಂದು ರೀತಿಯಲ್ಲಿ ಹೇಳುವುದಾದರೆ, ನೀವು ಆ ಟ್ರೇಸ್ಗಳು ಮತ್ತು ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಹೊಂದಿದ ನಂತರ, ಏಜೆಂಟ್ ಅನ್ನು ತೀರ್ಮಾನಿಸಲು ಮತ್ತು ನಿರ್ಧಾರಗಳನ್ನು ಕೈಗೊಳ್ಳಲು ಅವುಗಳನ್ನು ಹೇಗೆ ಬಳಸುತ್ತೀರಿ?
ನಿಯಮಿತ ಮೌಲ್ಯಮಾಪನವು ಮುಖ್ಯವಾಗಿದೆ, ಏಕೆಂದರೆ AI ಏಜೆಂಟ್ಗಳು ಸಾಮಾನ್ಯವಾಗಿ ನಿರ್ಧಿಷ್ಟವಾಗಿರುತ್ತವೆ ಮತ್ತು ಅಭಿವೃದ್ಧಿಯಾಗಬಹುದು (ಅಪ್ಡೇಟ್ಗಳು ಅಥವಾ ಮಾದರಿ ವರ್ತನೆಯ ಬದಲಾವಣೆಗಳ ಮೂಲಕ) – ಮೌಲ್ಯಮಾಪನವಿಲ್ಲದೆ, ನಿಮ್ಮ “ಸ್ಮಾರ್ಟ್ ಏಜೆಂಟ್” ವಾಸ್ತವವಾಗಿ ತನ್ನ ಕೆಲಸವನ್ನು ಚೆನ್ನಾಗಿ ಮಾಡುತ್ತಿದೆಯೇ ಅಥವಾ ಅದು ಹಿಂಜರಿದಿದೆಯೇ ಎಂಬುದನ್ನು ನೀವು ತಿಳಿಯಲು ಸಾಧ್ಯವಿಲ್ಲ.
AI ಏಜೆಂಟ್ಗಳಿಗೆ ಎರಡು ಪ್ರಕಾರದ ಮೌಲ್ಯಮಾಪನಗಳಿವೆ: ಆಫ್ಲೈನ್ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಆನ್ಲೈನ್ ಮೌಲ್ಯಮಾಪನ. ಎರಡೂ ಅಮೂಲ್ಯವಾಗಿದ್ದು, ಅವು ಪರಸ್ಪರ ಪೂರಕವಾಗಿವೆ. ನಾವು ಸಾಮಾನ್ಯವಾಗಿ ಆಫ್ಲೈನ್ ಮೌಲ್ಯಮಾಪನದಿಂದ ಪ್ರಾರಂಭಿಸುತ್ತೇವೆ, ಏಕೆಂದರೆ ಇದು ಯಾವುದೇ ಏಜೆಂಟ್ ಅನ್ನು ನಿಯೋಜಿಸುವ ಮೊದಲು ಕನಿಷ್ಠ ಅಗತ್ಯವಾದ ಹೆಜ್ಜೆ.

ಇದು ನಿಯಂತ್ರಿತ ಪರಿಸರದಲ್ಲಿ, ಸಾಮಾನ್ಯವಾಗಿ ಪರೀಕ್ಷಾ ಡೇಟಾಸೆಟ್ಗಳನ್ನು ಬಳಸಿಕೊಂಡು, ನೈಜ ಬಳಕೆದಾರ ಪ್ರಶ್ನೆಗಳನ್ನು ಬಳಸದೆ ಏಜೆಂಟ್ ಅನ್ನು ಮೌಲ್ಯಮಾಪನ ಮಾಡುವುದು. ನೀವು ನಿರೀಕ್ಷಿತ ಔಟ್ಪುಟ್ ಅಥವಾ ಸರಿಯಾದ ವರ್ತನೆ ಏನೆಂದು ನಿಮಗೆ ಗೊತ್ತಿರುವ ಕ್ಯೂರೆಟ್ ಮಾಡಿದ ಡೇಟಾಸೆಟ್ಗಳನ್ನು ಬಳಸುತ್ತೀರಿ, ಮತ್ತು ನಂತರ ಅವುಗಳ ಮೇಲೆ ನಿಮ್ಮ ಏಜೆಂಟ್ ಅನ್ನು ರನ್ ಮಾಡುತ್ತೀರಿ.
ಉದಾಹರಣೆಗೆ, ನೀವು ಗಣಿತ ಪದ-ಸಮಸ್ಯೆ ಏಜೆಂಟ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ್ದರೆ, ನೀವು 100 ಸಮಸ್ಯೆಗಳ ಪರೀಕ್ಷಾ ಡೇಟಾಸೆಟ್ ಹೊಂದಿರಬಹುದು, ಅವುಗಳ ಉತ್ತರಗಳು ತಿಳಿದಿವೆ. ಆ ಎಐ ಏಜೆಂಟ್ಗಳನ್ನು ಉತ್ಪಾದನೆಗೆ ನಿಯೋಜಿಸುವ ವೆಚ್ಚಗಳನ್ನು ನಿರ್ವಹಿಸಲು ಕೆಲವು ತಂತ್ರಗಳು ಇಲ್ಲಿವೆ:
ಸಣ್ಣ ಮಾದರಿಗಳನ್ನು ಬಳಸುವುದು: ಸಣ್ಣ ಭಾಷಾ ಮಾದರಿಗಳು (SLMs) ಕೆಲವು ಏಜೆಂಟಿಕ್ ಬಳಕೆ ಪ್ರಕರಣಗಳಲ್ಲಿ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಬಹುದು ಮತ್ತು ವೆಚ್ಚವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಕಡಿಮೆ ಮಾಡುತ್ತವೆ. ಮೊದಲು ಹೇಳಿದಂತೆ, ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ನಿರ್ಧರಿಸಲು ಮತ್ತು ದೊಡ್ಡ ಮಾದರಿಗಳೊಂದಿಗೆ ಹೋಲಿಸಲು ಮೌಲ್ಯಮಾಪನ ವ್ಯವಸ್ಥೆಯನ್ನು ನಿರ್ಮಿಸುವುದು ನಿಮ್ಮ ಬಳಕೆ ಪ್ರಕರಣದಲ್ಲಿ SLM ಹೇಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂಬುದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಉತ್ತಮ ಮಾರ್ಗವಾಗಿದೆ. ಉದ್ದೇಶ ವರ್ಗೀಕರಣ ಅಥವಾ ಪ್ಯಾರಾಮೀಟರ್ ಎಕ್ಸ್ಟ್ರಾಕ್ಷನ್ನಂತಹ ಸರಳ ಕಾರ್ಯಗಳಿಗೆ SLMಗಳನ್ನು ಬಳಸುವ ಬಗ್ಗೆ ಪರಿಗಣಿಸಿ, ಮತ್ತು ಸಂಕೀರ್ಣವಾದ ತಾರ್ಕಿಕತೆಯಿಗಾಗಿ ದೊಡ್ಡ ಮಾದರಿಗಳನ್ನು ಮೀಸಲು ಇಡಿ.
ರೌಟರ್ ಮಾದರಿಯನ್ನು ಬಳಸುವುದು: ಇದಕ್ಕೆ ಸಮಾನವಾದ ತಂತ್ರವೆಂದರೆ ವಿವಿಧ ಮಾದರಿಗಳು ಮತ್ತು ಗಾತ್ರಗಳನ್ನು ಬಳಸುವುದು. ನೀವು LLM/SLM ಅಥವಾ ಸರ್ವರ್ಲೆಸ್ ಫಂಕ್ಷನ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ವಿನಂತಿಗಳನ್ನು ಸಂಕೀರ್ಣತೆಯ ಆಧಾರದ ಮೇಲೆ ಸೂಕ್ತ ಮಾದರಿಗಳಿಗೆ ರೌಟ್ ಮಾಡಬಹುದು. ಇದು ವೆಚ್ಚವನ್ನು ಕಡಿಮೆ ಮಾಡಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ ಮತ್ತು ಸರಿಯಾದ ಕಾರ್ಯಗಳಲ್ಲಿ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಖಚಿತಪಡಿಸುತ್ತದೆ. ಉದಾಹರಣೆಗೆ, ಸರಳ ಪ್ರಶ್ನೆಗಳನ್ನು ಚಿಕ್ಕ, ವೇಗವಾದ ಮಾದರಿಗಳಿಗೆ ರೌಟ್ ಮಾಡಿ, ಮತ್ತು ಕೇವಲ ಸಂಕೀರ್ಣವಾದ ತಾರ್ಕಿಕ ಕಾರ್ಯಗಳಿಗೆ ದುಬಾರಿ ದೊಡ್ಡ ಮಾದರಿಗಳನ್ನು ಬಳಸಿ.
ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಕ್ಯಾಶ್ ಮಾಡುವುದು: ಸಾಮಾನ್ಯ ವಿನಂತಿಗಳು ಮತ್ತು ಕಾರ್ಯಗಳನ್ನು ಗುರುತಿಸಿ, ಅವುಗಳನ್ನು ನಿಮ್ಮ ಏಜೆಂಟಿಕ್ ವ್ಯವಸ್ಥೆಯ ಮೂಲಕ ಹೋಗುವ ಮೊದಲು ಪ್ರತಿಕ್ರಿಯೆಗಳನ್ನು ಒದಗಿಸುವುದು ಸಮಾನ ವಿನಂತಿಗಳ ಪ್ರಮಾಣವನ್ನು ಕಡಿಮೆ ಮಾಡುವ ಉತ್ತಮ ಮಾರ್ಗವಾಗಿದೆ. ನೀವು ನಿಮ್ಮ ಕ್ಯಾಶ್ ಮಾಡಿದ ವಿನಂತಿಗಳಿಗೆ ವಿನಂತಿಯ ಸಮಾನತೆಯನ್ನು ಗುರುತಿಸಲು ಮೂಲಭೂತ AI ಮಾದರಿಗಳನ್ನು ಬಳಸುವ ಪ್ರಕ್ರಿಯೆಯನ್ನು ಜಾರಿಗೆ ತರುವುದೂ ಸಾಧ್ಯ. ಈ ತಂತ್ರವು ಸಾಮಾನ್ಯವಾಗಿ ಕೇಳಲಾಗುವ ಪ್ರಶ್ನೆಗಳು ಅಥವಾ ಸಾಮಾನ್ಯ ಕಾರ್ಯಪ್ರವಾಹಗಳ ವೆಚ್ಚವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಕಡಿಮೆ ಮಾಡಬಹುದು.
ಈ ವಿಭಾಗದ ಉದಾಹರಣಾ ನೋಟುಪುಸ್ತಕದಲ್ಲಿ, ನಾವು ಏಜೆಂಟ್ ಅನ್ನು ಮೇಲ್ವಿಚಾರಣೆ ಮತ್ತು ಮೌಲ್ಯಮಾಪನ ಮಾಡಲು ವೀಕ್ಷಣಾ ಸಾಧನಗಳನ್ನು ಹೇಗೆ ಬಳಸಬಹುದು ಎಂಬುದರ ಉದಾಹರಣೆಗಳನ್ನು ನೋಡುತ್ತೇವೆ.
ಇತರ ಕಲಿಯುವವರನ್ನು ಭೇಟಿಯಾಗಲು, ಕಚೇರಿ ಸಮಯಗಳಲ್ಲಿ ಭಾಗವಹಿಸಲು ಮತ್ತು ನಿಮ್ಮ ಎಐ ಏಜೆಂಟ್ಗಳ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರ ಪಡೆಯಲು Azure AI Foundry Discord ಗೆ ಸೇರಿ.
ಮೆಟಾಕಾಗ್ನಿಷನ್ ಡಿಸೈನ್ ಪ್ಯಾಟರ್ನ್
ಅಸಮೀಕ್ಷೆ:
ಈ ದಾಖಲೆ Co-op Translator ಎಂಬ AI ಅನುವಾದ ಸೇವೆಯನ್ನು ಬಳಸಿಕೊಂಡು ಅನುವಾದಿಸಲಾಗಿದೆ. ನಾವು ನಿಖರತೆಯನ್ನು ಸಾಧಿಸಲು ಪ್ರಯತ್ನಿಸುತ್ತಿದ್ದರೂ, ದಯವಿಟ್ಟು ಗಮನಿಸಿ, ಸ್ವಯಂಚಾಲಿತ ಅನುವಾದಗಳಲ್ಲಿ ದೋಷಗಳು ಅಥವಾ ಅಸಮರ್ಪಕತೆಗಳು ಇರಬಹುದು. ಮೂಲ ಭಾಷೆಯಲ್ಲಿರುವ ಮೂಲ ದಾಖಲೆ ಪ್ರಾಮಾಣಿಕ ಮೂಲವಾಗಿ ಪರಿಗಣಿಸಬೇಕು. ಪ್ರಮುಖ ಮಾಹಿತಿಗಾಗಿ, ವೃತ್ತಿಪರ ಮಾನವ ಅನುವಾದವನ್ನು ಶಿಫಾರಸು ಮಾಡಲಾಗುತ್ತದೆ. ಈ ಅನುವಾದದ ಬಳಕೆಯಿಂದ ಉಂಟಾಗುವ ಯಾವುದೇ ತಪ್ಪುಅರ್ಥಗಳು ಅಥವಾ ತಪ್ಪುಅರ್ಥೈಸುವಿಕೆಗೆ ನಾವು ಹೊಣೆಗಾರರಲ್ಲ.