ai-agents-for-beginners

وكلاء الذكاء الاصطناعي في الإنتاج: المراقبة والتقييم

وكلاء الذكاء الاصطناعي في الإنتاج

مع انتقال وكلاء الذكاء الاصطناعي من النماذج التجريبية إلى التطبيقات الواقعية، يصبح فهم سلوكهم، مراقبة أدائهم، وتقييم مخرجاتهم بشكل منهجي أمرًا بالغ الأهمية.

أهداف التعلم

بعد إكمال هذه الدرس، ستتعلم كيفية/تفهم:

الهدف هو تزويدك بالمعرفة لتحويل وكلائك من “صندوق أسود” إلى أنظمة شفافة، قابلة للإدارة، وموثوقة.

ملاحظة: من المهم نشر وكلاء ذكاء اصطناعي آمنين وجديرين بالثقة. تحقق من درس بناء وكلاء ذكاء اصطناعي جديرين بالثقة أيضًا.

التتبع والتقسيمات

أدوات المراقبة مثل Langfuse أو Azure AI Foundry عادةً ما تمثل تشغيل الوكلاء كعمليات تتبع وتقسيمات.

شجرة التتبع في Langfuse

بدون المراقبة، يمكن أن يبدو وكيل الذكاء الاصطناعي كـ “صندوق أسود” - حالته الداخلية ومنطقه غير واضحين، مما يجعل من الصعب تشخيص المشكلات أو تحسين الأداء. مع المراقبة، يصبح الوكلاء “صناديق زجاجية”، مما يوفر الشفافية التي تعتبر ضرورية لبناء الثقة وضمان عملهم كما هو متوقع.

لماذا المراقبة مهمة في بيئات الإنتاج

نقل وكلاء الذكاء الاصطناعي إلى بيئات الإنتاج يضيف مجموعة جديدة من التحديات والمتطلبات. تصبح المراقبة ليست مجرد “ميزة إضافية” بل قدرة أساسية:

المقاييس الرئيسية التي يجب تتبعها

لمراقبة وفهم سلوك الوكلاء، يجب تتبع مجموعة من المقاييس والإشارات. على الرغم من أن المقاييس المحددة قد تختلف بناءً على غرض الوكيل، إلا أن بعضها مهم عالميًا.

فيما يلي بعض المقاييس الأكثر شيوعًا التي تراقبها أدوات المراقبة:

التأخير: ما مدى سرعة استجابة الوكيل؟ تؤثر فترات الانتظار الطويلة سلبًا على تجربة المستخدم. يجب قياس التأخير للمهام والخطوات الفردية من خلال تتبع تشغيل الوكلاء. على سبيل المثال، يمكن تسريع وكيل يستغرق 20 ثانية لجميع مكالمات النموذج باستخدام نموذج أسرع أو تشغيل مكالمات النموذج بالتوازي.

التكاليف: ما هي التكلفة لكل تشغيل للوكيل؟ تعتمد وكلاء الذكاء الاصطناعي على مكالمات نماذج اللغة الكبيرة (LLM) التي يتم احتسابها بناءً على عدد الرموز أو واجهات برمجة التطبيقات الخارجية. يمكن أن يؤدي الاستخدام المتكرر للأدوات أو التعليمات المتعددة إلى زيادة التكاليف بسرعة. على سبيل المثال، إذا استدعى الوكيل نموذج اللغة الكبير خمس مرات لتحسين الجودة بشكل هامشي، يجب تقييم ما إذا كانت التكلفة مبررة أو إذا كان يمكن تقليل عدد المكالمات أو استخدام نموذج أرخص. يمكن أن يساعد المراقبة في الوقت الفعلي أيضًا في تحديد الارتفاعات غير المتوقعة (مثل الأخطاء التي تسبب حلقات واجهات برمجة التطبيقات المفرطة).

أخطاء الطلبات: كم عدد الطلبات التي فشل فيها الوكيل؟ يمكن أن يشمل ذلك أخطاء واجهات برمجة التطبيقات أو مكالمات الأدوات الفاشلة. لجعل الوكيل أكثر قوة ضد هذه الأخطاء في الإنتاج، يمكنك إعداد استراتيجيات احتياطية أو إعادة المحاولة. على سبيل المثال، إذا كان مزود نموذج اللغة الكبير A غير متاح، يمكنك التبديل إلى مزود نموذج اللغة الكبير B كنسخة احتياطية.

ملاحظات المستخدم: توفر التقييمات المباشرة من المستخدمين رؤى قيمة. يمكن أن تشمل ذلك تقييمات صريحة (👍إعجاب/👎عدم إعجاب، ⭐1-5 نجوم) أو تعليقات نصية. يجب أن تنبهك الملاحظات السلبية المستمرة لأنها علامة على أن الوكيل لا يعمل كما هو متوقع.

ملاحظات المستخدم الضمنية: توفر سلوكيات المستخدم ملاحظات غير مباشرة حتى بدون تقييمات صريحة. يمكن أن يشمل ذلك إعادة صياغة السؤال فورًا، استفسارات متكررة، أو النقر على زر إعادة المحاولة. على سبيل المثال، إذا رأيت أن المستخدمين يكررون نفس السؤال، فهذه علامة على أن الوكيل لا يعمل كما هو متوقع.

الدقة: ما مدى تكرار إنتاج الوكيل مخرجات صحيحة أو مرغوبة؟ تختلف تعريفات الدقة (مثل صحة حل المشكلات، دقة استرجاع المعلومات، رضا المستخدم). الخطوة الأولى هي تحديد ما يعني النجاح لوكيلك. يمكنك تتبع الدقة من خلال الفحوصات الآلية، درجات التقييم، أو تسميات إكمال المهام. على سبيل المثال، وضع علامات على التتبع كـ “نجح” أو “فشل”.

مقاييس التقييم الآلي: يمكنك أيضًا إعداد تقييمات آلية. على سبيل المثال، يمكنك استخدام نموذج لغة كبير لتقييم مخرجات الوكيل مثل ما إذا كانت مفيدة، دقيقة، أو لا. هناك أيضًا العديد من المكتبات مفتوحة المصدر التي تساعدك في تقييم جوانب مختلفة من الوكيل. على سبيل المثال، RAGAS لوكلاء RAG أو LLM Guard لاكتشاف اللغة الضارة أو حقن التعليمات.

في الممارسة العملية، يوفر الجمع بين هذه المقاييس أفضل تغطية لصحة وكيل الذكاء الاصطناعي. في دفتر الملاحظات المثال في هذا الفصل، سنعرض لك كيف تبدو هذه المقاييس في أمثلة حقيقية ولكن أولاً، سنتعلم كيف يبدو سير عمل التقييم النموذجي.

تجهيز وكيلك

لجمع بيانات التتبع، ستحتاج إلى تجهيز الكود الخاص بك. الهدف هو تجهيز كود الوكيل لإصدار تتبع ومقاييس يمكن التقاطها، معالجتها، وتصويرها بواسطة منصة مراقبة.

OpenTelemetry (OTel): OpenTelemetry برز كمعيار صناعي لمراقبة نماذج اللغة الكبيرة. يوفر مجموعة من واجهات برمجة التطبيقات، SDKs، وأدوات لتوليد، جمع، وتصدير بيانات القياس عن بعد.

هناك العديد من مكتبات التجهيز التي تغلف أطر عمل الوكلاء الحالية وتجعل من السهل تصدير تقسيمات OpenTelemetry إلى أداة مراقبة. أدناه مثال على تجهيز وكيل AutoGen باستخدام مكتبة التجهيز OpenLit:

import openlit

openlit.init(tracer = langfuse._otel_tracer, disable_batch = True)

سيوضح دفتر الملاحظات المثال في هذا الفصل كيفية تجهيز وكيل AutoGen الخاص بك.

إنشاء تقسيمات يدويًا: بينما توفر مكتبات التجهيز أساسًا جيدًا، هناك حالات غالبًا ما تكون فيها معلومات أكثر تفصيلًا أو مخصصة مطلوبة. يمكنك إنشاء تقسيمات يدويًا لإضافة منطق تطبيق مخصص. الأهم من ذلك، يمكنهم إثراء التقسيمات التي تم إنشاؤها تلقائيًا أو يدويًا بسمات مخصصة (تُعرف أيضًا بالعلامات أو البيانات الوصفية). يمكن أن تشمل هذه السمات بيانات خاصة بالأعمال، حسابات وسيطة، أو أي سياق قد يكون مفيدًا للتصحيح أو التحليل، مثل user_id، session_id، أو model_version.

مثال على إنشاء تتبع وتقسيمات يدويًا باستخدام Langfuse Python SDK:

from langfuse import get_client
 
langfuse = get_client()
 
span = langfuse.start_span(name="my-span")
 
span.end()

تقييم الوكيل

توفر المراقبة المقاييس، لكن التقييم هو عملية تحليل تلك البيانات (وإجراء الاختبارات) لتحديد مدى أداء وكيل الذكاء الاصطناعي وكيف يمكن تحسينه. بمعنى آخر، بمجرد أن يكون لديك تلك التتبع والمقاييس، كيف تستخدمها لتقييم الوكيل واتخاذ القرارات؟

التقييم المنتظم مهم لأن وكلاء الذكاء الاصطناعي غالبًا ما يكونون غير حتميين ويمكن أن يتطوروا (من خلال التحديثات أو تغير سلوك النموذج) – بدون التقييم، لن تعرف ما إذا كان “الوكيل الذكي” الخاص بك يقوم بعمله بشكل جيد أو إذا كان قد تراجع.

هناك فئتان من التقييمات لوكلاء الذكاء الاصطناعي: التقييم عبر الإنترنت والتقييم غير المتصل. كلاهما ذو قيمة، ويكملان بعضهما البعض. عادةً ما نبدأ بالتقييم غير المتصل، حيث أن هذه هي الخطوة الأساسية الدنيا قبل نشر أي وكيل.

التقييم غير المتصل

عناصر مجموعة البيانات في Langfuse

يتضمن ذلك تقييم الوكيل في بيئة محكومة، عادةً باستخدام مجموعات بيانات اختبار، وليس استفسارات المستخدم الحية. تستخدم مجموعات بيانات منسقة حيث تعرف ما هو المخرج المتوقع أو السلوك الصحيح، ثم تقوم بتشغيل وكيلك عليها.

على سبيل المثال، إذا قمت ببناء وكيل لحل مشاكل الرياضيات، قد يكون لديك مجموعة بيانات اختبار تحتوي على 100 مشكلة مع إجابات معروفة. يتم إجراء التقييم غير المتصل غالبًا أثناء التطوير (ويمكن أن يكون جزءًا من خطوط أنابيب CI/CD) للتحقق من التحسينات أو الحماية ضد التراجعات. الفائدة هي أنها قابلة للتكرار ويمكنك الحصول على مقاييس دقة واضحة لأن لديك الحقيقة الأساسية. قد تحاكي أيضًا استفسارات المستخدم وتقيس استجابات الوكيل مقابل الإجابات المثالية أو تستخدم مقاييس آلية كما هو موضح أعلاه.

التحدي الرئيسي مع التقييم غير المتصل هو ضمان أن تكون مجموعة بيانات الاختبار شاملة وتظل ذات صلة – قد يؤدي الوكيل أداءً جيدًا على مجموعة اختبار ثابتة ولكنه يواجه استفسارات مختلفة جدًا في الإنتاج. لذلك، يجب أن تحافظ على تحديث مجموعات الاختبار بحالات جديدة وأمثلة تعكس سيناريوهات العالم الحقيقي​. مزيج من حالات “اختبار الدخان” الصغيرة ومجموعات التقييم الأكبر مفيد: مجموعات صغيرة للفحوصات السريعة وأخرى أكبر لمقاييس الأداء الأوسع​.

التقييم عبر الإنترنت

نظرة عامة على مقاييس المراقبة

يشير هذا إلى تقييم الوكيل في بيئة حية، أي أثناء الاستخدام الفعلي في الإنتاج. يتضمن التقييم عبر الإنترنت مراقبة أداء الوكيل على تفاعلات المستخدم الحقيقية وتحليل النتائج بشكل مستمر.

على سبيل المثال، قد تتبع معدلات النجاح، درجات رضا المستخدم، أو مقاييس أخرى على حركة المرور الحية. ميزة التقييم عبر الإنترنت هي أنه يلتقط أشياء قد لا تتوقعها في بيئة مختبرية – يمكنك ملاحظة تغير النموذج بمرور الوقت (إذا تدهورت فعالية الوكيل مع تغير أنماط الإدخال) واكتشاف استفسارات أو مواقف غير متوقعة لم تكن في بيانات الاختبار​. يوفر صورة حقيقية عن كيفية تصرف الوكيل في العالم الحقيقي.

غالبًا ما يتضمن التقييم عبر الإنترنت جمع ملاحظات المستخدم الضمنية والصريحة، كما تمت مناقشته، وربما تشغيل اختبارات الظل أو اختبارات A/B (حيث يتم تشغيل نسخة جديدة من الوكيل بالتوازي للمقارنة مع القديمة). التحدي هو أنه قد يكون من الصعب الحصول على تسميات أو درجات موثوقة للتفاعلات الحية – قد تعتمد على ملاحظات المستخدم أو مقاييس لاحقة (مثل هل قام المستخدم بالنقر على النتيجة).

الجمع بين الاثنين

التقييم عبر الإنترنت وغير المتصل ليسا متعارضين؛ بل يكملان بعضهما البعض بشكل كبير. يمكن استخدام رؤى المراقبة عبر الإنترنت (مثل أنواع جديدة من استفسارات المستخدم حيث يؤدي الوكيل أداءً ضعيفًا) لتحسين مجموعات بيانات الاختبار غير المتصلة. بالمقابل، يمكن للوكلاء الذين يؤدون أداءً جيدًا في الاختبارات غير المتصلة أن يتم نشرهم ومراقبتهم بثقة أكبر عبر الإنترنت.

في الواقع، تتبنى العديد من الفرق دورة:

التقييم غير المتصل -> النشر -> المراقبة عبر الإنترنت -> جمع حالات الفشل الجديدة -> الإضافة إلى مجموعة بيانات غير متصلة -> تحسين الوكيل -> التكرار.

المشكلات الشائعة

عند نشر وكلاء الذكاء الاصطناعي في الإنتاج، قد تواجه تحديات مختلفة. فيما يلي بعض المشكلات الشائعة وحلولها المحتملة:

| المشكلة | الحل المحتمل | | ————- | —————— | | الوكيل لا يؤدي المهام بشكل متسق | - تحسين التعليمات المقدمة للوكيل؛ كن واضحًا بشأن الأهداف.
- تحديد ما إذا كان تقسيم المهام إلى مهام فرعية ومعالجتها بواسطة وكلاء متعددين يمكن أن يساعد. | | الوكيل يدخل في حلقات مستمرة | - تأكد من وجود شروط وأحكام واضحة لإنهاء العملية حتى يعرف الوكيل متى يتوقف. |

مقدمة

تحسين أداء الوكلاء

عند العمل مع أنظمة الوكلاء، قد تواجه تحديات تتعلق بالأداء. فيما يلي بعض المشكلات الشائعة وكيفية معالجتها:

المشكلة الحلول
أداء النموذج غير كافٍ - استخدم نموذجًا أكبر أو أكثر تخصصًا.
- قم بتحسين البيانات المستخدمة في التدريب.
- قم بتعديل المعلمات أو المطالبات لتحسين الأداء.
أداء أدوات الوكلاء غير مرضٍ - اختبر وصحح مخرجات الأداة خارج نظام الوكلاء.
- قم بتحسين المعلمات المحددة، المطالبات، وأسماء الأدوات.
أداء نظام الوكلاء المتعدد غير متسق - قم بتحسين المطالبات المقدمة لكل وكيل لضمان أنها محددة ومتميزة عن بعضها البعض.
- قم ببناء نظام هرمي باستخدام وكيل “توجيه” أو وكيل تحكم لتحديد الوكيل المناسب.

يمكن تحديد العديد من هذه المشكلات بشكل أكثر فعالية عند وجود أدوات مراقبة. تساعد الآثار والمقاييس التي ناقشناها سابقًا في تحديد مكان حدوث المشكلات في سير عمل الوكيل، مما يجعل عملية التصحيح والتحسين أكثر كفاءة.

إدارة التكاليف

إليك بعض الاستراتيجيات لإدارة تكاليف نشر الوكلاء الذكيين في الإنتاج:

استخدام نماذج أصغر: يمكن للنماذج اللغوية الصغيرة (SLMs) أن تؤدي أداءً جيدًا في بعض حالات الاستخدام الوكيلية، مما يقلل التكاليف بشكل كبير. كما ذكرنا سابقًا، بناء نظام تقييم لتحديد ومقارنة الأداء مقابل النماذج الأكبر هو أفضل طريقة لفهم مدى كفاءة SLM في حالة الاستخدام الخاصة بك. فكر في استخدام SLMs للمهام البسيطة مثل تصنيف النوايا أو استخراج المعلمات، مع تخصيص النماذج الأكبر للمهام التي تتطلب تفكيرًا معقدًا.

استخدام نموذج توجيه: استراتيجية مشابهة هي استخدام تنوع في النماذج والأحجام. يمكنك استخدام LLM/SLM أو وظيفة بدون خادم لتوجيه الطلبات بناءً على التعقيد إلى النماذج الأنسب. سيساعد ذلك في تقليل التكاليف مع ضمان الأداء في المهام المناسبة. على سبيل المثال، قم بتوجيه الاستفسارات البسيطة إلى نماذج أصغر وأسرع، واستخدم النماذج الكبيرة والمكلفة فقط للمهام التي تتطلب تفكيرًا معقدًا.

تخزين الردود: تحديد الطلبات والمهام الشائعة وتوفير الردود مسبقًا قبل أن تمر عبر نظام الوكلاء الخاص بك هو طريقة جيدة لتقليل حجم الطلبات المتشابهة. يمكنك حتى تنفيذ تدفق لتحديد مدى تشابه الطلب مع الطلبات المخزنة باستخدام نماذج ذكاء اصطناعي أكثر بساطة. يمكن لهذه الاستراتيجية أن تقلل التكاليف بشكل كبير للأسئلة المتكررة أو سير العمل الشائع.

لنرى كيف يعمل هذا عمليًا

في دفتر الملاحظات الخاص بهذا القسم، سنرى أمثلة على كيفية استخدام أدوات المراقبة لمتابعة وتقييم الوكلاء.

هل لديك المزيد من الأسئلة حول الوكلاء الذكيين في الإنتاج؟

انضم إلى خادم Discord الخاص بـ Azure AI Foundry للتواصل مع متعلمين آخرين، حضور ساعات المكتب، والحصول على إجابات لأسئلتك حول الوكلاء الذكيين.

الدرس السابق

نمط تصميم الإدراك الفوقي

الدرس التالي

البروتوكولات الوكيلية


إخلاء المسؤولية:
تمت ترجمة هذا المستند باستخدام خدمة الترجمة بالذكاء الاصطناعي Co-op Translator. بينما نسعى لتحقيق الدقة، يرجى العلم أن الترجمات الآلية قد تحتوي على أخطاء أو عدم دقة. يجب اعتبار المستند الأصلي بلغته الأصلية هو المصدر الموثوق. للحصول على معلومات حساسة أو هامة، يُوصى بالاستعانة بترجمة بشرية احترافية. نحن غير مسؤولين عن أي سوء فهم أو تفسيرات خاطئة تنشأ عن استخدام هذه الترجمة.