ai-agents-for-beginners

एजेंटिक प्रोटोकॉल्स (MCP, A2A आणि NLWeb) वापरणे

एजेंटिक प्रोटोकॉल्स

(वरील प्रतिमेवर क्लिक करून या धड्याचा व्हिडिओ पहा)

AI एजंट्सचा वापर वाढत असताना, मानकीकरण, सुरक्षा आणि खुल्या नवकल्पनांना समर्थन देणाऱ्या प्रोटोकॉल्सची गरजही वाढत आहे. या धड्यात, आम्ही तीन प्रोटोकॉल्सवर चर्चा करू - मॉडेल कॉन्टेक्स्ट प्रोटोकॉल (MCP), एजंट टू एजंट (A2A) आणि नॅचरल लँग्वेज वेब (NLWeb).

परिचय

या धड्यात आपण शिकणार आहोत:

MCP कसे AI एजंट्सना बाह्य साधने आणि डेटा वापरून वापरकर्त्याचे कार्य पूर्ण करण्यास मदत करते.

A2A कसे वेगवेगळ्या AI एजंट्समध्ये संवाद आणि सहकार्य सक्षम करते.

NLWeb कसे कोणत्याही वेबसाइटवर नैसर्गिक भाषा इंटरफेस आणते, ज्यामुळे AI एजंट्सना सामग्री शोधणे आणि संवाद साधणे शक्य होते.

शिकण्याची उद्दिष्टे

ओळखणे MCP, A2A आणि NLWeb चा मुख्य उद्देश आणि फायदे AI एजंट्सच्या संदर्भात.

समजावून सांगणे प्रत्येक प्रोटोकॉल कसे LLMs, साधने आणि इतर एजंट्समध्ये संवाद आणि परस्परसंवाद सुलभ करते.

ओळखणे प्रत्येक प्रोटोकॉलची वेगवेगळी भूमिका जटिल एजेंटिक प्रणाली तयार करण्यात.

मॉडेल कॉन्टेक्स्ट प्रोटोकॉल

मॉडेल कॉन्टेक्स्ट प्रोटोकॉल (MCP) हा एक ओपन स्टँडर्ड आहे जो LLMs ला कॉन्टेक्स्ट आणि साधने प्रदान करण्यासाठी मानकीकृत मार्ग उपलब्ध करून देतो. यामुळे AI एजंट्सना वेगवेगळ्या डेटा स्रोतांशी आणि साधनांशी सुसंगत पद्धतीने जोडण्यासाठी “युनिव्हर्सल अडॅप्टर” सक्षम होतो.

आम्ही MCP चे घटक, थेट API वापराच्या तुलनेत फायदे, आणि AI एजंट्स MCP सर्व्हर कसे वापरू शकतात याचे उदाहरण पाहू.

MCP मुख्य घटक

MCP क्लायंट-सर्व्हर आर्किटेक्चरवर कार्य करते आणि त्याचे मुख्य घटक आहेत:

होस्ट्स: LLM अॅप्लिकेशन्स (उदाहरणार्थ, VSCode सारखा कोड एडिटर) जे MCP सर्व्हरशी कनेक्शन सुरू करतात.

क्लायंट्स: होस्ट अॅप्लिकेशनमधील घटक जे सर्व्हर्सशी एक-ते-एक कनेक्शन राखतात.

सर्व्हर्स: विशिष्ट क्षमता प्रदान करणारे हलके प्रोग्राम्स.

प्रोटोकॉलमध्ये MCP सर्व्हरच्या क्षमतांमध्ये तीन मुख्य घटक समाविष्ट आहेत:

साधने: AI एजंट्स विशिष्ट क्रिया करण्यासाठी कॉल करू शकणाऱ्या स्वतंत्र क्रिया किंवा फंक्शन्स. उदाहरणार्थ, हवामान सेवा “हवामान मिळवा” साधन प्रदान करू शकते, किंवा ई-कॉमर्स सर्व्हर “उत्पादन खरेदी करा” साधन प्रदान करू शकतो. MCP सर्व्हर्स त्यांच्या क्षमतांच्या यादीत प्रत्येक साधनाचे नाव, वर्णन आणि इनपुट/आउटपुट स्कीमा जाहिर करतात.

संसाधने: MCP सर्व्हर प्रदान करू शकणाऱ्या वाचण्यायोग्य डेटा आयटम्स किंवा दस्तऐवज, आणि क्लायंट्स त्यांना मागणीनुसार पुनर्प्राप्त करू शकतात. उदाहरणांमध्ये फाइल सामग्री, डेटाबेस रेकॉर्ड्स किंवा लॉग फाइल्स समाविष्ट आहेत. संसाधने मजकूर (जसे कोड किंवा JSON) किंवा बायनरी (जसे प्रतिमा किंवा PDFs) असू शकतात.

प्रॉम्प्ट्स: पूर्वनिर्धारित टेम्पलेट्स जे सुचवलेले प्रॉम्प्ट्स प्रदान करतात, अधिक जटिल कार्यप्रवाह सक्षम करतात.

MCP चे फायदे

MCP AI एजंट्ससाठी महत्त्वाचे फायदे देते:

डायनॅमिक टूल डिस्कव्हरी: एजंट्स सर्व्हरकडून उपलब्ध साधनांची यादी आणि ती काय करतात याचे वर्णन डायनॅमिकपणे प्राप्त करू शकतात. पारंपरिक APIs च्या तुलनेत, ज्यांना अनेकदा स्थिर कोडिंग आवश्यक असते, MCP “एकदाच समाकलित करा” दृष्टिकोन देते, ज्यामुळे अधिक अनुकूलता मिळते.

LLMs दरम्यान इंटरऑपरेबिलिटी: MCP वेगवेगळ्या LLMs मध्ये कार्य करते, मुख्य मॉडेल्स स्विच करण्याची लवचिकता प्रदान करते.

मानकीकृत सुरक्षा: MCP मानक प्रमाणीकरण पद्धत समाविष्ट करते, अतिरिक्त MCP सर्व्हर्समध्ये प्रवेश जोडताना स्केलेबिलिटी सुधारते.

MCP उदाहरण

MCP डायग्राम

कल्पना करा की वापरकर्ता AI सहाय्यकाचा वापर करून फ्लाइट बुक करू इच्छित आहे, जो MCP वर आधारित आहे.

  1. कनेक्शन: AI सहाय्यक (MCP क्लायंट) एअरलाइनद्वारे प्रदान केलेल्या MCP सर्व्हरशी कनेक्ट होतो.

  2. साधन शोध: क्लायंट एअरलाइनच्या MCP सर्व्हरला विचारतो, “तुमच्याकडे कोणती साधने उपलब्ध आहेत?” सर्व्हर “फ्लाइट शोधा” आणि “फ्लाइट बुक करा” यासारखी साधने प्रदान करतो.

  3. साधन वापर: तुम्ही AI सहाय्यकाला विचारता, “पोर्टलँड ते होनोलुलु फ्लाइट शोधा.” AI सहाय्यक, त्याच्या LLM चा वापर करून, “फ्लाइट शोधा” साधन कॉल करण्याची गरज ओळखतो आणि MCP सर्व्हरला संबंधित पॅरामीटर्स (उद्गम, गंतव्य) पाठवतो.

  4. अंमलबजावणी आणि प्रतिसाद: MCP सर्व्हर एअरलाइनच्या अंतर्गत बुकिंग API ला कॉल करतो, फ्लाइट माहिती प्राप्त करतो आणि ती AI सहाय्यकाला परत पाठवतो.

  5. पुढील संवाद: AI सहाय्यक फ्लाइट पर्याय सादर करतो. तुम्ही फ्लाइट निवडल्यानंतर, सहाय्यक MCP सर्व्हरवरील “फ्लाइट बुक करा” साधन कॉल करू शकतो, बुकिंग पूर्ण करत.

एजंट-टू-एजंट प्रोटोकॉल (A2A)

MCP LLMs ला साधनांशी जोडण्यावर लक्ष केंद्रित करते, तर एजंट-टू-एजंट (A2A) प्रोटोकॉल वेगवेगळ्या AI एजंट्समध्ये संवाद आणि सहकार्य सक्षम करून पुढे जातो. A2A वेगवेगळ्या संस्थांमधील, वातावरणातील आणि तंत्रज्ञानाच्या स्टॅक्समधील AI एजंट्सना एकत्रित कार्य पूर्ण करण्यासाठी जोडतो.

आम्ही A2A चे घटक आणि फायदे तपासू, तसेच आमच्या प्रवास अॅप्लिकेशनमध्ये त्याचा उपयोग कसा होतो याचे उदाहरण पाहू.

A2A मुख्य घटक

A2A एजंट्समध्ये संवाद सक्षम करण्यावर आणि वापरकर्त्याच्या उपकार्य पूर्ण करण्यासाठी त्यांना एकत्र काम करण्यास सक्षम करण्यावर लक्ष केंद्रित करते. प्रोटोकॉलचे प्रत्येक घटक यासाठी योगदान देतो:

एजंट कार्ड

MCP सर्व्हर साधनांची यादी कशी शेअर करतो, त्याचप्रमाणे एजंट कार्डमध्ये असते:

एजंट एक्झिक्युटर

एजंट एक्झिक्युटर वापरकर्त्याच्या चॅटचा कॉन्टेक्स्ट रिमोट एजंटला पास करण्यासाठी जबाबदार असतो, रिमोट एजंटला समजण्यासाठी की कोणते कार्य पूर्ण करायचे आहे. A2A सर्व्हरमध्ये, एजंट त्याच्या स्वतःच्या LLM चा वापर करून येणाऱ्या विनंत्या पार्स करतो आणि त्याच्या अंतर्गत साधनांचा वापर करून कार्ये पूर्ण करतो.

आर्टिफॅक्ट

रिमोट एजंटने विनंती केलेले कार्य पूर्ण केल्यानंतर, त्याचे कार्य उत्पादन आर्टिफॅक्ट म्हणून तयार होते. आर्टिफॅक्टमध्ये एजंटच्या कार्याचा परिणाम, पूर्ण केलेल्या कार्याचे वर्णन, आणि प्रोटोकॉलद्वारे पाठवलेला मजकूर कॉन्टेक्स्ट असतो. आर्टिफॅक्ट पाठवल्यानंतर, रिमोट एजंटशी कनेक्शन बंद होते जोपर्यंत पुन्हा गरज पडत नाही.

इव्हेंट क्यू

हा घटक अपडेट्स हाताळण्यासाठी आणि संदेश पास करण्यासाठी वापरला जातो. उत्पादनात एजंटिक प्रणालींसाठी हे विशेषतः महत्त्वाचे आहे, जेणेकरून एजंट्समधील कनेक्शन कार्य पूर्ण होण्यापूर्वी बंद होऊ नये, विशेषतः जेव्हा कार्य पूर्ण होण्यास जास्त वेळ लागू शकतो.

A2A चे फायदे

सहकार्य सुधारित: वेगवेगळ्या विक्रेत्यांच्या आणि प्लॅटफॉर्म्सच्या एजंट्सना संवाद साधण्यास, कॉन्टेक्स्ट शेअर करण्यास आणि एकत्र काम करण्यास सक्षम करते, पारंपरिकपणे डिस्कनेक्टेड सिस्टम्समध्ये सहज ऑटोमेशन सुलभ करते.

मॉडेल निवडीची लवचिकता: प्रत्येक A2A एजंट त्याच्या विनंत्यांची सेवा करण्यासाठी कोणते LLM वापरायचे ते ठरवू शकतो, MCP च्या काही परिस्थितींमध्ये एकच LLM कनेक्शन असण्याच्या तुलनेत.

अंतर्गत प्रमाणीकरण: प्रमाणीकरण थेट A2A प्रोटोकॉलमध्ये समाकलित केले जाते, एजंट संवादांसाठी मजबूत सुरक्षा फ्रेमवर्क प्रदान करते.

A2A उदाहरण

A2A डायग्राम

आमच्या प्रवास बुकिंग परिस्थितीवर विस्तार करूया, पण यावेळी A2A वापरून.

  1. वापरकर्ता विनंती मल्टी-एजंटला: वापरकर्ता “ट्रॅव्हल एजंट” A2A क्लायंट/एजंटशी संवाद साधतो, कदाचित असे म्हणतो, “कृपया पुढील आठवड्यासाठी होनोलुलुला संपूर्ण ट्रिप बुक करा, ज्यामध्ये फ्लाइट्स, हॉटेल आणि भाड्याने कार समाविष्ट आहे.”

  2. ट्रॅव्हल एजंटद्वारे समन्वय: ट्रॅव्हल एजंट ही जटिल विनंती प्राप्त करतो. तो त्याच्या LLM चा वापर करून कार्याचा विचार करतो आणि ठरवतो की त्याला इतर विशेष एजंट्सशी संवाद साधण्याची गरज आहे.

  3. एजंट्समधील संवाद: ट्रॅव्हल एजंट A2A प्रोटोकॉल वापरून डाउनस्ट्रीम एजंट्सशी कनेक्ट होतो, जसे की “एअरलाइन एजंट,” “हॉटेल एजंट,” आणि “कार रेंटल एजंट” जे वेगवेगळ्या कंपन्यांनी तयार केले आहेत.

  4. कार्याचे प्रतिनिधीकरण: ट्रॅव्हल एजंट या विशेष एजंट्सना विशिष्ट कार्ये पाठवतो (उदा., “होनोलुलुला फ्लाइट शोधा,” “हॉटेल बुक करा,” “कार भाड्याने घ्या”). हे प्रत्येक विशेष एजंट, त्याचे स्वतःचे LLM चालवत आणि त्याची स्वतःची साधने वापरत (ज्यामुळे MCP सर्व्हर्स असू शकतात), बुकिंगचा विशिष्ट भाग पूर्ण करतो.

  5. एकत्रित प्रतिसाद: एकदा सर्व डाउनस्ट्रीम एजंट्स त्यांची कार्ये पूर्ण केल्यानंतर, ट्रॅव्हल एजंट परिणाम (फ्लाइट तपशील, हॉटेल पुष्टीकरण, कार रेंटल बुकिंग) संकलित करतो आणि वापरकर्त्याला एक व्यापक, चॅट-शैलीतील प्रतिसाद पाठवतो.

नॅचरल लँग्वेज वेब (NLWeb)

वेबसाइट्स दीर्घकाळापासून इंटरनेटवर माहिती आणि डेटा प्रवेश करण्याचा प्राथमिक मार्ग राहिला आहे.

आम्ही NLWeb चे वेगवेगळे घटक, NLWeb चे फायदे आणि आमच्या प्रवास अॅप्लिकेशनद्वारे NLWeb कसे कार्य करते याचे उदाहरण पाहू.

NLWeb चे घटक

NLWeb उदाहरणाद्वारे

NLWeb

आमच्या प्रवास बुकिंग वेबसाइटचा विचार करा, पण यावेळी ती NLWeb द्वारे समर्थित आहे.

  1. डेटा इनजेशन: प्रवास वेबसाइटची विद्यमान उत्पादन कॅटलॉग्स (उदा., फ्लाइट यादी, हॉटेल वर्णने, टूर पॅकेजेस) Schema.org वापरून स्वरूपित केली जातात किंवा RSS फीड्सद्वारे लोड केली जातात. NLWeb चे साधने ही संरचित डेटा घेतात, एम्बेडिंग तयार करतात आणि स्थानिक किंवा रिमोट व्हेक्टर डेटाबेसमध्ये संग्रहित करतात.

  2. नैसर्गिक भाषा क्वेरी (मानवी): वापरकर्ता वेबसाइटला भेट देतो आणि मेनू नेव्हिगेट करण्याऐवजी चॅट इंटरफेसमध्ये टाइप करतो: “मला पुढील आठवड्यासाठी होनोलुलुमध्ये पूल असलेले कौटुंबिक अनुकूल हॉटेल शोधा.”

  3. NLWeb प्रक्रिया: NLWeb अॅप्लिकेशन ही क्वेरी प्राप्त करते. ती क्वेरी समजण्यासाठी LLM ला पाठवते आणि एकाच वेळी व्हेक्टर डेटाबेसमध्ये संबंधित हॉटेल यादी शोधते.

  4. अचूक परिणाम: LLM डेटाबेसमधून शोध परिणाम समजून घेण्यास मदत करते, “कौटुंबिक अनुकूल,” “पूल,” आणि “होनोलुलु” निकषांवर आधारित सर्वोत्तम जुळणारे हॉटेल्स ओळखते, आणि नैसर्गिक भाषेत प्रतिसाद स्वरूपित करते. महत्त्वाचे म्हणजे, प्रतिसाद वेबसाइटच्या कॅटलॉगमधील वास्तविक हॉटेल्सचा संदर्भ देतो, बनावट माहिती टाळतो.

  5. AI एजंट संवाद: कारण NLWeb MCP सर्व्हर म्हणून कार्य करते, बाह्य AI ट्रॅव्हल एजंट देखील वेबसाइटच्या NLWeb इंस्टन्सशी कनेक्ट होऊ शकतो. AI एजंट वेबसाइटला थेट ask MCP पद्धत वापरून क्वेरी करू शकतो: `ask(“हॉटेलने शिफारस केलेल्या होनोल


अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने युक्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.