Aller au contenu

Évaluations avec plusieurs modèles

AI generated translation.

GenAIScript vous permet d’évaluer plusieurs modèles dans un seul script contre plusieurs tests. Cela est utile lorsque vous voulez comparer les performances de différents modèles sur les mêmes entrées.

GenAIScript utilise PromptFoo pour évaluer les sorties des modèles.

Dans cet exemple, nous évaluerons les performances de trois modèles sur un script de résumé.

summarizer.genai.js
const file = def("FILE", env.files)
$`Summarize ${file} in one sentence.`

Tout d’abord, vous devez ajouter un ou plusieurs tests en tant que champ tests dans la fonction script.

script({
tests: { files: "markdown.md", keywords: "markdown" },
})
...

Dans ce cas, nous ajoutons une simple assertion de keyword, mais vous pouvez trouver de nombreuses autres options dans la référence des tests.

Ensuite, ajoutez la liste des identifiants de modèles ou des alias de modèles que vous souhaitez tester.

script({
...,
testModels: [
"azure_ai_inference:gpt-4o",
"azure_ai_inference:gpt-4o-mini",
"azure_ai_inference:deepseek-r1",
],
})
...

Les tests peuvent être exécutés en utilisant l’interface en ligne de commande genaiscript ou dans Visual Studio Code (voir scripts de test).

Fenêtre de terminal
genaiscript test summarizer

Ensuite, ouvrez le tableau de bord PromptFoo pour voir les résultats des tests.

Fenêtre de terminal
genaiscript test view