ai-agents-for-beginners

Cómo diseñar buenos agentes de IA

(Haga clic en la imagen de arriba para ver el video de esta lección)

Patrón de diseño de uso de herramientas

Las herramientas son interesantes porque permiten que los agentes de IA tengan un rango más amplio de capacidades. En lugar de que el agente tenga un conjunto limitado de acciones que puede realizar, al agregar una herramienta, el agente ahora puede realizar una amplia variedad de acciones. En este capítulo, analizaremos el Patrón de diseño de uso de herramientas, que describe cómo los agentes de IA pueden usar herramientas específicas para lograr sus objetivos.

Introducción

En esta lección, buscamos responder las siguientes preguntas:

Objetivos de aprendizaje

Después de completar esta lección, podrá:

¿Qué es el Patrón de diseño de uso de herramientas?

El Patrón de diseño de uso de herramientas se enfoca en darle a los LLMs la capacidad de interactuar con herramientas externas para lograr objetivos específicos. Las herramientas son código que puede ser ejecutado por un agente para realizar acciones. Una herramienta puede ser una función simple como una calculadora, o una llamada API a un servicio de terceros, como la consulta de precios de acciones o el pronóstico del tiempo. En el contexto de los agentes de IA, las herramientas están diseñadas para ser ejecutadas por los agentes en respuesta a llamadas a funciones generadas por el modelo.

¿Cuáles son los casos de uso a los que se puede aplicar?

Los agentes de IA pueden aprovechar herramientas para completar tareas complejas, recuperar información o tomar decisiones. El patrón de diseño de uso de herramientas suele usarse en escenarios que requieren interacción dinámica con sistemas externos, como bases de datos, servicios web o intérpretes de código. Esta capacidad es útil para varios casos de uso, incluyendo:

¿Cuáles son los elementos/bloques de construcción necesarios para implementar el patrón de diseño de uso de herramientas?

Estos bloques de construcción permiten que el agente de IA realice una amplia variedad de tareas. Veamos los elementos clave necesarios para implementar el Patrón de diseño de uso de herramientas:

A continuación, veamos con más detalle la Llamada de función/herramienta.

Llamada de función/herramienta

La llamada a función es la forma principal en que habilitamos a los Grandes Modelos de Lenguaje (LLMs) para interactuar con herramientas. A menudo verás que ‘Función’ y ‘Herramienta’ se usan indistintamente porque las ‘funciones’ (bloques de código reutilizables) son las ‘herramientas’ que los agentes usan para llevar a cabo tareas. Para que se invoque el código de una función, un LLM debe comparar la solicitud del usuario con la descripción de las funciones. Para esto, se envía al LLM un esquema que contiene las descripciones de todas las funciones disponibles. Luego el LLM selecciona la función más adecuada para la tarea y devuelve su nombre y argumentos. La función seleccionada se invoca, su respuesta se envía de vuelta al LLM, que usa la información para responder a la solicitud del usuario.

Para que los desarrolladores implementen la llamada a funciones para agentes, necesitarán:

  1. Un modelo LLM que soporte llamada a funciones
  2. Un esquema que contenga descripciones de funciones
  3. El código para cada función descrita

Usemos el ejemplo de obtener la hora actual en una ciudad para ilustrar:

  1. Inicializar un LLM que soporte llamada a funciones:

    No todos los modelos soportan llamada a funciones, por lo que es importante verificar que el LLM que utilizas lo haga. Azure OpenAI soporta llamada a funciones. Podemos empezar iniciando el cliente de Azure OpenAI.

     # Inicializar el cliente de Azure OpenAI
     client = AzureOpenAI(
         azure_endpoint = os.getenv("AZURE_OPENAI_ENDPOINT"), 
         api_key=os.getenv("AZURE_OPENAI_API_KEY"),  
         api_version="2024-05-01-preview"
     )
    
  2. Crear un esquema de función:

    Luego definiremos un esquema JSON que contiene el nombre de la función, la descripción de lo que hace la función, y los nombres y descripciones de los parámetros de la función. Luego tomaremos este esquema y lo pasaremos al cliente creado previamente, junto con la solicitud del usuario para encontrar la hora en San Francisco. Lo importante a notar es que se devuelve una llamada a herramienta, no la respuesta final a la pregunta. Como se mencionó antes, el LLM devuelve el nombre de la función que seleccionó para la tarea, y los argumentos que se le pasarán.

     # Descripción de la función para que el modelo lea
     tools = [
         {
             "type": "function",
             "function": {
                 "name": "get_current_time",
                 "description": "Get the current time in a given location",
                 "parameters": {
                     "type": "object",
                     "properties": {
                         "location": {
                             "type": "string",
                             "description": "The city name, e.g. San Francisco",
                         },
                     },
                     "required": ["location"],
                 },
             }
         }
     ]
    
      
     # Mensaje inicial del usuario
     messages = [{"role": "user", "content": "What's the current time in San Francisco"}] 
      
     # Primera llamada a la API: Pedir al modelo que use la función
       response = client.chat.completions.create(
           model=deployment_name,
           messages=messages,
           tools=tools,
           tool_choice="auto",
       )
      
       # Procesar la respuesta del modelo
       response_message = response.choices[0].message
       messages.append(response_message)
      
       print("Model's response:")  
    
       print(response_message)
      
    
     Model's response:
     ChatCompletionMessage(content=None, role='assistant', function_call=None, tool_calls=[ChatCompletionMessageToolCall(id='call_pOsKdUlqvdyttYB67MOj434b', function=Function(arguments='{"location":"San Francisco"}', name='get_current_time'), type='function')])
    
  3. El código de la función requerido para llevar a cabo la tarea:

    Ahora que el LLM ha elegido qué función debe ejecutarse, el código que realiza la tarea debe implementarse y ejecutarse. Podemos implementar el código para obtener la hora actual en Python. También necesitaremos escribir el código para extraer el nombre y los argumentos del response_message para obtener el resultado final.

       def get_current_time(location):
         """Get the current time for a given location"""
         print(f"get_current_time called with location: {location}")  
         location_lower = location.lower()
            
         for key, timezone in TIMEZONE_DATA.items():
             if key in location_lower:
                 print(f"Timezone found for {key}")  
                 current_time = datetime.now(ZoneInfo(timezone)).strftime("%I:%M %p")
                 return json.dumps({
                     "location": location,
                     "current_time": current_time
                 })
          
         print(f"No timezone data found for {location_lower}")  
         return json.dumps({"location": location, "current_time": "unknown"})
    
      # Manejar llamadas a funciones
       if response_message.tool_calls:
           for tool_call in response_message.tool_calls:
               if tool_call.function.name == "get_current_time":
         
                   function_args = json.loads(tool_call.function.arguments)
         
                   time_response = get_current_time(
                       location=function_args.get("location")
                   )
         
                   messages.append({
                       "tool_call_id": tool_call.id,
                       "role": "tool",
                       "name": "get_current_time",
                       "content": time_response,
                   })
       else:
           print("No tool calls were made by the model.")  
      
       # Segunda llamada a la API: Obtener la respuesta final del modelo
       final_response = client.chat.completions.create(
           model=deployment_name,
           messages=messages,
       )
      
       return final_response.choices[0].message.content
    
       get_current_time called with location: San Francisco
       Timezone found for san francisco
       The current time in San Francisco is 09:24 AM.
    

La llamada a funciones está en el corazón de la mayoría, si no de todos, los diseños de uso de herramientas para agentes; sin embargo, implementarla desde cero puede a veces ser un desafío. Como aprendimos en Lección 2, los frameworks agenticos nos proporcionan bloques de construcción preconstruidos para implementar el uso de herramientas.

Ejemplos de uso de herramientas con frameworks agenticos

Aquí hay algunos ejemplos de cómo puede implementar el Patrón de diseño de uso de herramientas usando diferentes frameworks agenticos:

Semantic Kernel

Semantic Kernel es un framework de IA de código abierto para desarrolladores .NET, Python y Java que trabajan con Grandes Modelos de Lenguaje (LLMs). Simplifica el proceso de uso de llamada a funciones describiendo automáticamente tus funciones y sus parámetros al modelo mediante un proceso llamado serialización. También maneja la comunicación bidireccional entre el modelo y tu código. Otra ventaja de usar un framework agentico como Semantic Kernel es que te permite acceder a herramientas preconstruidas como Búsqueda de archivos y Intérprete de código.

El siguiente diagrama ilustra el proceso de llamada a funciones con Semantic Kernel:

function calling

En Semantic Kernel las funciones/herramientas se llaman Plugins. Podemos convertir la función get_current_time que vimos antes en un plugin convirtiéndola en una clase con la función dentro. También podemos importar el decorador kernel_function, que toma la descripción de la función. Cuando luego creas un kernel con GetCurrentTimePlugin, el kernel serializará automáticamente la función y sus parámetros, creando el esquema para enviar al LLM en el proceso.

from semantic_kernel.functions import kernel_function

class GetCurrentTimePlugin:
    async def __init__(self, location):
        self.location = location

    @kernel_function(
        description="Get the current time for a given location"
    )
    def get_current_time(location: str = ""):
        ...

from semantic_kernel import Kernel

# Crear el núcleo
kernel = Kernel()

# Crear el complemento
get_current_time_plugin = GetCurrentTimePlugin(location)

# Agregar el complemento al núcleo
kernel.add_plugin(get_current_time_plugin)

Azure AI Agent Service

Azure AI Agent Service es un framework agentico más reciente diseñado para empoderar a los desarrolladores a construir, desplegar y escalar agentes de IA extensibles, de alta calidad y seguros sin necesidad de gestionar los recursos de cómputo y almacenamiento subyacentes. Es particularmente útil para aplicaciones empresariales ya que es un servicio completamente gestionado con seguridad de nivel empresarial.

En comparación con desarrollar directamente con la API del LLM, Azure AI Agent Service ofrece algunas ventajas, incluyendo:

Las herramientas disponibles en Azure AI Agent Service pueden dividirse en dos categorías:

  1. Herramientas de conocimiento:
  2. Herramientas de acción:

El Agent Service nos permite usar estas herramientas juntas como un conjunto de herramientas. También utiliza hilos que guardan el historial de mensajes de una conversación particular.

Imagina que eres un agente de ventas en una empresa llamada Contoso. Quieres desarrollar un agente conversacional que pueda responder preguntas sobre tus datos de ventas.

La siguiente imagen ilustra cómo podrías usar Azure AI Agent Service para analizar tus datos de ventas:

Agentic Service In Action

Para usar cualquiera de estas herramientas con el servicio podemos crear un cliente y definir una herramienta o conjunto de herramientas. Para implementarlo prácticamente podemos usar el siguiente código Python. El LLM podrá mirar el conjunto de herramientas y decidir si usa la función creada por el usuario, fetch_sales_data_using_sqlite_query, o el Intérprete de código preconstruido según la solicitud del usuario.

import os
from azure.ai.projects import AIProjectClient
from azure.identity import DefaultAzureCredential
from fetch_sales_data_functions import fetch_sales_data_using_sqlite_query # función fetch_sales_data_using_sqlite_query que se puede encontrar en un archivo fetch_sales_data_functions.py.
from azure.ai.projects.models import ToolSet, FunctionTool, CodeInterpreterTool

project_client = AIProjectClient.from_connection_string(
    credential=DefaultAzureCredential(),
    conn_str=os.environ["PROJECT_CONNECTION_STRING"],
)

# Inicializar el conjunto de herramientas
toolset = ToolSet()

# Inicializar el agente de llamada de función con la función fetch_sales_data_using_sqlite_query y agregarla al conjunto de herramientas
fetch_data_function = FunctionTool(fetch_sales_data_using_sqlite_query)
toolset.add(fetch_data_function)

# Inicializar la herramienta de intérprete de código y agregarla al conjunto de herramientas.
code_interpreter = code_interpreter = CodeInterpreterTool()
toolset.add(code_interpreter)

agent = project_client.agents.create_agent(
    model="gpt-4o-mini", name="my-agent", instructions="You are helpful agent", 
    toolset=toolset
)

¿Cuáles son las consideraciones especiales para usar el Patrón de diseño de uso de herramientas para construir agentes de IA confiables?

Una preocupación común con SQL generado dinámicamente por LLMs es la seguridad, particularmente el riesgo de inyección SQL o acciones maliciosas, como eliminar o manipular la base de datos. Aunque estas preocupaciones son válidas, pueden mitigarse efectivamente configurando adecuadamente los permisos de acceso a la base de datos. Para la mayoría de bases de datos esto implica configurarla como solo lectura. Para servicios de base de datos como PostgreSQL o Azure SQL, la aplicación debe asignarse con un rol solo lectura (SELECT).

Ejecutar la aplicación en un entorno seguro refuerza aún más la protección. En escenarios empresariales, los datos típicamente se extraen y transforman desde sistemas operativos hacia una base de datos o almacén de datos solo lectura con un esquema amigable para el usuario. Este enfoque asegura que los datos estén seguros, optimizados para rendimiento y accesibilidad, y que la aplicación tenga acceso restringido y solo lectura.

Códigos de ejemplo

¿Tienes más preguntas sobre el uso de patrones de diseño en herramientas?

Únete al Microsoft Foundry Discord para encontrarte con otros estudiantes, asistir a horas de oficina y resolver tus preguntas sobre Agentes de IA.

Recursos adicionales

Lección anterior

Entendiendo los Patrones de Diseño Agénticos

Próxima lección

Agentic RAG


Aviso legal: Este documento ha sido traducido utilizando el servicio de traducción automática Co-op Translator. Aunque nos esforzamos por la precisión, tenga en cuenta que las traducciones automáticas pueden contener errores o inexactitudes. El documento original en su idioma nativo debe considerarse la fuente autorizada. Para información crítica, se recomienda una traducción profesional realizada por un humano. No nos hacemos responsables por malentendidos o interpretaciones erróneas derivadas del uso de esta traducción.