# Agenti AutoGen in Produzione: Osservabilit√† e Valutazione

In questo tutorial, impareremo come **monitorare i passaggi interni (tracce) degli [agenti Autogen](https://github.com/microsoft/autogen)** e **valutare le loro prestazioni** utilizzando [Langfuse](https://langfuse.com).

Questa guida copre le metriche di valutazione **online** e **offline** utilizzate dai team per portare gli agenti in produzione in modo rapido e affidabile.

**Perch√© la valutazione degli agenti AI √® importante:**
- Risolvere problemi quando i compiti falliscono o producono risultati subottimali
- Monitorare i costi e le prestazioni in tempo reale
- Migliorare l'affidabilit√† e la sicurezza attraverso un feedback continuo


## Passaggio 1: Configurare le Variabili d'Ambiente

Ottieni le chiavi API di Langfuse registrandoti su [Langfuse Cloud](https://cloud.langfuse.com/) o [ospitando Langfuse autonomamente](https://langfuse.com/self-hosting).

_**Nota:** Chi ospita autonomamente pu√≤ utilizzare i [moduli Terraform](https://langfuse.com/self-hosting/azure) per distribuire Langfuse su Azure. In alternativa, √® possibile distribuire Langfuse su Kubernetes utilizzando il [Helm chart](https://langfuse.com/self-hosting/kubernetes-helm)._


In [5]:
import os

# Get keys for your project from the project settings page: https://cloud.langfuse.com
os.environ["LANGFUSE_PUBLIC_KEY"] = "pk-lf-..." 
os.environ["LANGFUSE_SECRET_KEY"] = "sk-lf-..." 
os.environ["LANGFUSE_HOST"] = "https://cloud.langfuse.com" # üá™üá∫ EU region
# os.environ["LANGFUSE_HOST"] = "https://us.cloud.langfuse.com" # üá∫üá∏ US region

Con le variabili d'ambiente impostate, possiamo ora inizializzare il client Langfuse. `get_client()` inizializza il client Langfuse utilizzando le credenziali fornite nelle variabili d'ambiente.


In [6]:
from langfuse import Langfuse
 
# Filter out Autogen OpenTelemetryspans
langfuse = Langfuse(
    blocked_instrumentation_scopes=["autogen SingleThreadedAgentRuntime"]
)
 
# Verify connection
if langfuse.auth_check():
    print("Langfuse client is authenticated and ready!")
else:
    print("Authentication failed. Please check your credentials and host.")

Langfuse client is authenticated and ready!


## Passaggio 2: Inizializzare l'Instrumentazione OpenLit

Ora inizializziamo l'instrumentazione di [OpenLit](https://github.com/openlit/openlit). OpenLit cattura automaticamente le operazioni AutoGen ed esporta gli span di OpenTelemetry (OTel) su Langfuse.


In [7]:
import openlit
 
# Initialize OpenLIT instrumentation. The disable_batch flag is set to true to process traces immediately.
openlit.init(tracer=langfuse._otel_tracer, disable_batch=True, disabled_instrumentors=["mistral"])

## Passaggio 3: Esegui il tuo agente

Ora configuriamo un agente a pi√π turni per testare la nostra strumentazione.


In [2]:
import os

from autogen_agentchat.agents import AssistantAgent
from autogen_ext.models.azure import AzureAIChatCompletionClient
from azure.core.credentials import AzureKeyCredential
from autogen_agentchat.base import TaskResult

from autogen_agentchat.conditions import TextMentionTermination
from autogen_agentchat.teams import RoundRobinGroupChat

In [3]:
client = AzureAIChatCompletionClient(
    model="gpt-4o-mini",
    endpoint="https://models.inference.ai.azure.com",
    # To authenticate with the model you will need to generate a personal access token (PAT) in your GitHub settings.
    # Create your PAT token by following instructions here: https://docs.github.com/en/authentication/keeping-your-account-and-data-secure/managing-your-personal-access-tokens
    credential=AzureKeyCredential(os.environ["GITHUB_TOKEN"]),
    model_info={
        "json_output": True,
        "function_calling": True,
        "vision": True,
        "family": "unknown",
        "structured_output": False
    },
)

In [8]:
# üç¥ Agent 1 ‚Äì proposes ONE healthy meal idea each turn
meal_planner_agent = AssistantAgent(
    "meal_planner_agent",
    model_client=client,
    description="A seasoned meal-planning coach who suggests balanced meals.",
    system_message="""
    You are a Meal-Planning Assistant with a decade of experience helping busy people prepare meals.
    Goal: propose the single best meal (breakfast, lunch, or dinner) given the user's context.
    Each response must contain ONLY one complete meal idea (title + very brief component list) ‚Äî no extras.
    Keep it concise: skip greetings, chit-chat, and filler.
    """,
)

# ü•ó Agent 2 ‚Äì checks nutritional quality & variety
nutritionist_agent = AssistantAgent(
    "nutritionist_agent",
    model_client=client,
    description="A registered dietitian ensuring meals meet nutritional standards.",
    system_message="""
    You are a Nutritionist focused on whole-food, macro-balanced eating.
    Evaluate the meal_planner_agent‚Äôs recommendation.
    If the meal is nutritionally sound, sufficiently varied, and portion-appropriate, respond with 'APPROVE'.
    Otherwise, give high-level guidance on how to improve it (e.g. 'add a plant-based protein') ‚Äî do NOT provide a full alternative recipe.
    """,
)

In [9]:
# ‚úÖ Chat stops once the nutritionist says APPROVE
termination = TextMentionTermination("APPROVE")

# üîÑ Alternate turns between the two agents until termination
team = RoundRobinGroupChat(
    [meal_planner_agent, nutritionist_agent],
    termination_condition=termination,
)

# Example kickoff
user_input = "I'm looking for a quick, delicious dinner I can prep after work. I have 30 minutes and minimal clean-up is ideal."

In [None]:
with langfuse.start_as_current_span(name="create_meal_plan") as span:
    async for message in team.run_stream(task=user_input):
        if isinstance(message, TaskResult):
            print("Stop Reason:", message.stop_reason)
        else:
            print(message)

    span.update_trace(
        input=user_input,
        output=message.stop_reason,
    )

# Flush the trace to Langfuse for short-lived environments such as Jupyter Notebooks
langfuse.flush()

### Struttura del Tracciamento

Langfuse registra un **tracciamento** che contiene **span**, i quali rappresentano ogni fase della logica del tuo agente. Qui, il tracciamento include l'esecuzione complessiva dell'agente e sottospan per:
- L'agente pianificatore dei pasti
- Gli agenti nutrizionisti

Puoi esaminarli per vedere esattamente dove viene impiegato il tempo, quanti token vengono utilizzati, e cos√¨ via:

![Albero del tracciamento in Langfuse](https://langfuse.com/images/cookbook/example-autogen-evaluation/trace-tree.png)

_[Link al tracciamento](https://cloud.langfuse.com/project/cloramnkj0002jz088vzn1ja4/traces/dac2b33e7cd709e685ccf86a137ecc64)_


## Valutazione Online

La Valutazione Online si riferisce alla valutazione dell'agente in un ambiente reale e attivo, ovvero durante l'uso effettivo in produzione. Questo implica monitorare le prestazioni dell'agente nelle interazioni reali con gli utenti e analizzare continuamente i risultati.

### Metriche Comuni da Monitorare in Produzione

1. **Costi** ‚Äî Lo strumento registra l'uso dei token, che puoi trasformare in costi approssimativi assegnando un prezzo per token.
2. **Latenza** ‚Äî Osserva il tempo necessario per completare ogni passaggio o l'intera esecuzione.
3. **Feedback degli Utenti** ‚Äî Gli utenti possono fornire feedback diretto (pollice su/gi√π) per aiutare a perfezionare o correggere l'agente.
4. **LLM-come-Giudice** ‚Äî Usa un LLM separato per valutare l'output del tuo agente quasi in tempo reale (ad esempio, controllando tossicit√† o correttezza).

Di seguito, mostriamo esempi di queste metriche.


#### 1. Costi

Di seguito √® riportato uno screenshot che mostra l'utilizzo delle chiamate `gpt-4o-mini`. Questo √® utile per individuare i passaggi pi√π costosi e ottimizzare il tuo agente.

![Costi](https://langfuse.com/images/cookbook/example-autogen-evaluation/gpt-4o-costs.png) 

_[Link al tracciamento](https://cloud.langfuse.com/project/cloramnkj0002jz088vzn1ja4/traces/dac2b33e7cd709e685ccf86a137ecc64)_


#### 2. Latenza

Possiamo anche vedere quanto tempo √® stato necessario per completare ogni passaggio. Nell'esempio qui sotto, l'intera esecuzione ha richiesto circa 3 secondi, che puoi suddividere per passaggio. Questo ti aiuta a identificare i colli di bottiglia e ottimizzare il tuo agente.

![Latenza](https://langfuse.com/images/cookbook/example-autogen-evaluation/agent-latency.png) 

_[Link al tracciamento](https://cloud.langfuse.com/project/cloramnkj0002jz088vzn1ja4/traces/dac2b33e7cd709e685ccf86a137ecc64?display=timeline)_


#### 3. Feedback degli utenti

Se il tuo agente √® integrato in un'interfaccia utente, puoi registrare il feedback diretto degli utenti (come un pollice su/gi√π in un'interfaccia chat).


In [10]:
from langfuse import get_client
 
langfuse = get_client()
 
# Option 1: Use the yielded span object from the context manager
with langfuse.start_as_current_span(
    name="autogen-request-user-feedback-1") as span:
    
    async for message in team.run_stream(task="Create a meal with potatoes"):
            if isinstance(message, TaskResult):
                print("Stop Reason:", message.stop_reason)
            else:
                print(message)    
 
    # Score using the span object
    span.score_trace(
        name="user-feedback",
        value=1,
        data_type="NUMERIC",
        comment="This was delicious, thank you"
    )
 
# Option 2: Use langfuse.score_current_trace() if still in context
with langfuse.start_as_current_span(name="autogen-request-user-feedback-2") as span:
    # ... Autogen execution ...

    async for message in team.run_stream(task="I am allergic to gluten."):
            if isinstance(message, TaskResult):
                print("Stop Reason:", message.stop_reason)
            else:
                print(message)    
 
    # Score using current context
    langfuse.score_current_trace(
        name="user-feedback",
        value=1,
        data_type="NUMERIC"
    )

id='da068880-22ae-4f01-9f01-2bb231939089' source='user' models_usage=None metadata={} created_at=datetime.datetime(2025, 7, 2, 16, 20, 43, 732669, tzinfo=datetime.timezone.utc) content='Create a meal with potatoes' type='TextMessage'
id='ad937ce4-3534-493f-824b-ca9c226b5287' source='meal_planner_agent' models_usage=RequestUsage(prompt_tokens=95, completion_tokens=30) metadata={} created_at=datetime.datetime(2025, 7, 2, 16, 20, 45, 186423, tzinfo=datetime.timezone.utc) content='Potato and Spinach Frittata  \n- Eggs  \n- Potatoes  \n- Fresh spinach  \n- Onion  \n- Cheese (optional)  ' type='TextMessage'
id='50fd33c1-057f-49fe-afad-ee86d164296d' source='nutritionist_agent' models_usage=RequestUsage(prompt_tokens=132, completion_tokens=4) metadata={} created_at=datetime.datetime(2025, 7, 2, 16, 20, 45, 581059, tzinfo=datetime.timezone.utc) content='APPROVE' type='TextMessage'
Stop Reason: Text 'APPROVE' mentioned
id='e371de6c-e5fc-42c1-8eda-e5b8cd5accab' source='user' models_usage=None met

In [None]:
# Option 3: Use create_score() with trace ID (when outside context)
langfuse.create_score(
    trace_id="predefined_trace_id",
    name="user-feedback",
    value=1,
    data_type="NUMERIC",
    comment="This was correct, thank you"
)

Il feedback degli utenti viene quindi acquisito in Langfuse:

![Il feedback degli utenti viene acquisito in Langfuse](https://langfuse.com/images/cookbook/example-autogen-evaluation/user-feedback.png)


#### 4. Valutazione automatizzata con LLM-as-a-Judge

LLM-as-a-Judge √® un altro metodo per valutare automaticamente l'output del tuo agente. Puoi configurare una chiamata separata a un LLM per valutare la correttezza, la tossicit√†, lo stile o qualsiasi altro criterio che ritieni importante.

**Flusso di lavoro**:
1. Definisci un **Template di Valutazione**, ad esempio: "Verifica se il testo √® tossico."
2. Imposti un modello da utilizzare come modello giudice; in questo caso `gpt-4o-mini` interrogato tramite Azure.
3. Ogni volta che il tuo agente genera un output, passi quell'output al LLM "giudice" utilizzando il template.
4. L'LLM giudice risponde con una valutazione o un'etichetta che registri nel tuo strumento di osservabilit√†.

Esempio da Langfuse:

![Valutatore LLM-as-a-Judge](https://langfuse.com/images/cookbook/example-autogen-evaluation/evaluator.png)


In [12]:
with langfuse.start_as_current_span(name="autogen-request-user-feedback-2") as span:

    async for message in team.run_stream(task="I am a picky eater and not sure if you find something for me."):
            if isinstance(message, TaskResult):
                print("Stop Reason:", message.stop_reason)
            else:
                print(message) 

    span.update_trace(
        input=user_input,
        output=message.stop_reason,
    )

langfuse.flush()

id='eefc628d-502f-451a-8f70-be486f62f8c5' source='user' models_usage=None metadata={} created_at=datetime.datetime(2025, 7, 2, 16, 38, 29, 171393, tzinfo=datetime.timezone.utc) content='I am a picky eater and not sure if you find something for me.' type='TextMessage'
id='13b3e14b-bcf7-42a5-80d6-54b0c7be765e' source='meal_planner_agent' models_usage=RequestUsage(prompt_tokens=352, completion_tokens=27) metadata={} created_at=datetime.datetime(2025, 7, 2, 16, 38, 30, 433516, tzinfo=datetime.timezone.utc) content='Chicken Alfredo Pasta  \n- Gluten-free pasta  \n- Grilled chicken breast  \n- Heavy cream  \n- Parmesan cheese  \n- Garlic  ' type='TextMessage'
id='550f2dee-0e08-4bbd-b67f-991b467328f1' source='nutritionist_agent' models_usage=RequestUsage(prompt_tokens=386, completion_tokens=17) metadata={} created_at=datetime.datetime(2025, 7, 2, 16, 38, 31, 505173, tzinfo=datetime.timezone.utc) content='Consider incorporating some vegetables, like spinach or broccoli, to increase the nutrien

Puoi vedere che la risposta di questo esempio √® giudicata come "non tossica".

![Valutazione del punteggio LLM-as-a-Judge](https://langfuse.com/images/cookbook/example-autogen-evaluation/llm-as-a-judge-score.png)


#### 5. Panoramica delle Metriche di Osservabilit√†

Tutte queste metriche possono essere visualizzate insieme nei dashboard. Questo ti permette di vedere rapidamente come si comporta il tuo agente in molte sessioni e ti aiuta a monitorare le metriche di qualit√† nel tempo.

![Panoramica delle metriche di osservabilit√†](https://langfuse.com/images/cookbook/example-autogen-evaluation/dashboard.png)


## Valutazione Offline

La valutazione online √® fondamentale per ottenere feedback in tempo reale, ma √® altrettanto importante avere una **valutazione offline**‚Äîcontrolli sistematici prima o durante lo sviluppo. Questo aiuta a mantenere qualit√† e affidabilit√† prima di implementare le modifiche in produzione.


### Valutazione del Dataset

Nella valutazione offline, generalmente:
1. Si dispone di un dataset di riferimento (con coppie di prompt e output attesi)
2. Si esegue il proprio agente su quel dataset
3. Si confrontano gli output con i risultati attesi o si utilizza un ulteriore meccanismo di punteggio

Di seguito, dimostriamo questo approccio con il [q&a-dataset](https://huggingface.co/datasets/junzhang1207/search-dataset), che contiene domande e risposte attese.


In [16]:
import pandas as pd
from datasets import load_dataset
 
# Fetch search-dataset from Hugging Face
dataset = load_dataset("junzhang1207/search-dataset", split = "train")
df = pd.DataFrame(dataset)
print("First few rows of search-dataset:")
print(df.head())

  from .autonotebook import tqdm as notebook_tqdm


First few rows of search-dataset:
                                     id  \
0  20caf138-0c81-4ef9-be60-fe919e0d68d4   
1  1f37d9fd-1bcc-4f79-b004-bc0e1e944033   
2  76173a7f-d645-4e3e-8e0d-cca139e00ebe   
3  5f5ef4ca-91fe-4610-a8a9-e15b12e3c803   
4  64dbed0d-d91b-4acd-9a9c-0a7aa83115ec   

                                            question  \
0                 steve jobs statue location budapst   
1  Why is the Battle of Stalingrad considered a t...   
2  In what year did 'The Birth of a Nation' surpa...   
3  How many Russian soldiers surrendered to AFU i...   
4   What event led to the creation of Google Images?   

                                     expected_answer       category       area  
0  The Steve Jobs statue is located in Budapest, ...           Arts  Knowledge  
1  The Battle of Stalingrad is considered a turni...   General News       News  
2  This question is based on a false premise. 'Th...  Entertainment       News  
3  About 300 Russian soldiers surrendered to t

Successivamente, creiamo un'entit√† dataset in Langfuse per tracciare le esecuzioni. Poi, aggiungiamo ogni elemento del dataset al sistema.


In [17]:
from langfuse import Langfuse
langfuse = Langfuse()
 
langfuse_dataset_name = "qa-dataset_autogen-agent"
 
# Create a dataset in Langfuse
langfuse.create_dataset(
    name=langfuse_dataset_name,
    description="q&a dataset uploaded from Hugging Face",
    metadata={
        "date": "2025-03-21",
        "type": "benchmark"
    }
)

Dataset(id='cmcm7524d00kjad07s2cjwqcf', name='qa-dataset_autogen-agent', description='q&a dataset uploaded from Hugging Face', metadata={'date': '2025-03-21', 'type': 'benchmark'}, project_id='cloramnkj0002jz088vzn1ja4', created_at=datetime.datetime(2025, 7, 2, 16, 54, 7, 357000, tzinfo=datetime.timezone.utc), updated_at=datetime.datetime(2025, 7, 2, 16, 54, 7, 357000, tzinfo=datetime.timezone.utc))

In [18]:
df_25 = df.sample(25) # For this example, we upload only 25 dataset questions

for idx, row in df_25.iterrows():
    langfuse.create_dataset_item(
        dataset_name=langfuse_dataset_name,
        input={"text": row["question"]},
        expected_output={"text": row["expected_answer"]}
    )

![Elementi del dataset in Langfuse](https://langfuse.com/images/cookbook/example-autogen-evaluation/example-dataset.png)


#### Esecuzione dell'agente sul dataset

Per prima cosa, configuriamo un semplice agente Autogen che risponde alle domande utilizzando i modelli di Azure OpenAI.


In [8]:
import os
from dotenv import load_dotenv

from autogen_agentchat.agents import AssistantAgent
from autogen_core.models import UserMessage
from autogen_ext.models.azure import AzureAIChatCompletionClient
from azure.core.credentials import AzureKeyCredential
from autogen_core import CancellationToken
from autogen_agentchat.messages import TextMessage

In [None]:
load_dotenv()
client = AzureAIChatCompletionClient(
    model="gpt-4o",
    endpoint="https://models.inference.ai.azure.com",
    # To authenticate with the model you will need to generate a personal access token (PAT) in your GitHub settings.
    # Create your PAT token by following instructions here: https://docs.github.com/en/authentication/keeping-your-account-and-data-secure/managing-your-personal-access-tokens
    credential=AzureKeyCredential(os.getenv("GITHUB_TOKEN")),
    max_tokens=5000,
    model_info={
        "json_output": True,
        "function_calling": False,
        "vision": False,
        "family": "unknown",
        "structured_output": True,
    },
)

result = await client.create([UserMessage(content="What is the capital of France?", source="user")])
print(result)

In [18]:
agent = AssistantAgent(
    name="assistant",
    model_client=client,
    tools=[],
    system_message="You are participant in a quizz show and you are given a question. You need to create a short answer to the question.",
)

Quindi, definiamo una funzione di supporto `my_agent()`.


In [19]:
async def my_agent(user_query: str):

    with langfuse.start_as_current_span(name="autogen-trace") as span:

        # Execute the agent response
        response = await agent.on_messages(
            [TextMessage(content=user_query, source="user")],
            cancellation_token=CancellationToken(),
        )

        span.update_trace(
            input=user_query,
            output=response.chat_message.content,
        )

    return str(response.chat_message.content)

# Test the function
await my_agent("What is the capital of France?")

'The capital of France is Paris.'

Infine, esaminiamo ogni elemento del dataset, eseguiamo l'agente e colleghiamo la traccia all'elemento del dataset. Possiamo anche aggiungere un rapido punteggio di valutazione, se desiderato.


In [20]:
dataset_name = "qa-dataset_autogen-agent"
current_run_name = "dev_tasks_run-autogen_gpt-4.1" # Identifies this specific evaluation run
current_run_metadata={"model_provider": "Azure", "model": "gpt-4.1"}
current_run_description="Evaluation run for Autogen model on July 3rd"

dataset = langfuse.get_dataset('qa-dataset_autogen-agent')

for item in dataset.items:
    print(f"Running evaluation for item: {item.id} (Input: {item.input})")
 
    # Use the item.run() context manager
    with item.run(
        run_name=current_run_name,
        run_metadata=current_run_metadata,
        run_description=current_run_description
    ) as root_span: 
        # All subsequent langfuse operations within this block are part of this trace.
        generated_answer = await my_agent(user_query = item.input["text"])
    
    print("Generated Answer: ", generated_answer)
 
print(f"\nFinished processing dataset '{dataset_name}' for run '{current_run_name}'.")

langfuse.flush()

Running evaluation for item: 09810cc4-9992-4712-a3b2-7224da31776a (Input: {'text': 'In Hindu mythology, which deity is the Ganges river dolphin associated with?'})
Generated Answer:  In Hindu mythology, the Ganges river dolphin is associated with the deity Ganga.
Running evaluation for item: bb113f94-7723-47c6-8c34-59d883044514 (Input: {'text': 'What significant discovery did the LHCb collaboration report in 2015?'})
Generated Answer:  In 2015, the LHCb collaboration reported the discovery of pentaquark particles.
Running evaluation for item: 4d8ae54e-ceab-46d0-ad2c-6e8e223589a9 (Input: {'text': 'What is the M√Ñ\x81ori name for the red-crowned parakeet?'})
Generated Answer:  The MƒÅori name for the red-crowned parakeet is kƒÅkƒÅriki.
Running evaluation for item: 21e5a0d5-f619-4a73-868e-9955053b3e72 (Input: {'text': 'Who starred in the 1978 television film adaptation of Les Mis√É¬©rables?'})
Generated Answer:  Richard Jordan starred as Jean Valjean in the 1978 television film adaptation

Puoi ripetere questo processo con diverse configurazioni dell'agente, come ad esempio:
- Modelli (gpt-4o-mini, gpt-4.1, ecc.)
- Prompt
- Strumenti (con ricerca vs. senza ricerca)
- Complessit√† dell'agente (multi-agente vs singolo agente)

Poi confrontali fianco a fianco in Langfuse. In questo esempio, ho eseguito l'agente 3 volte sulle 25 domande del dataset. Per ogni esecuzione, ho utilizzato un modello Azure OpenAI diverso. Puoi notare che il numero di domande risposte correttamente migliora utilizzando un modello pi√π grande (come previsto). Il punteggio `correct_answer` √® generato da un [Valutatore LLM-as-a-Judge](https://langfuse.com/docs/scores/model-based-evals) configurato per giudicare la correttezza della risposta in base alla risposta campione fornita nel dataset.

![Panoramica delle esecuzioni del dataset](https://langfuse.com/images/cookbook/example-autogen-evaluation/dataset_runs.png)
![Confronto delle esecuzioni del dataset](https://langfuse.com/images/cookbook/example-autogen-evaluation/dataset-run-comparison.png)



---

**Disclaimer**:  
Questo documento √® stato tradotto utilizzando il servizio di traduzione automatica [Co-op Translator](https://github.com/Azure/co-op-translator). Sebbene ci impegniamo per garantire l'accuratezza, si prega di notare che le traduzioni automatiche potrebbero contenere errori o imprecisioni. Il documento originale nella sua lingua nativa dovrebbe essere considerato la fonte autorevole. Per informazioni critiche, si consiglia una traduzione professionale eseguita da un traduttore umano. Non siamo responsabili per eventuali fraintendimenti o interpretazioni errate derivanti dall'uso di questa traduzione.
