Évaluations avec plusieurs modèles
GenAIScript vous permet d’évaluer plusieurs modèles dans un seul script contre plusieurs tests. Cela est utile lorsque vous voulez comparer les performances de différents modèles sur les mêmes entrées.
GenAIScript utilise PromptFoo pour évaluer les sorties des modèles.
Dans cet exemple, nous évaluerons les performances de trois modèles sur un script de résumé.
const file = def("FILE", env.files)$`Summarize ${file} in one sentence.`
Définition des tests
Section intitulée « Définition des tests »Tout d’abord, vous devez ajouter un ou plusieurs tests en tant que champ tests
dans la fonction script
.
script({ tests: { files: "markdown.md", keywords: "markdown" },})...
Dans ce cas, nous ajoutons une simple assertion de keyword
, mais vous pouvez trouver de nombreuses autres options dans la référence des tests.
Définir les modèles de test
Section intitulée « Définir les modèles de test »Ensuite, ajoutez la liste des identifiants de modèles ou des alias de modèles que vous souhaitez tester.
script({ ..., testModels: [ "azure_ai_inference:gpt-4o", "azure_ai_inference:gpt-4o-mini", "azure_ai_inference:deepseek-r1", ],})...
Exécution des tests
Section intitulée « Exécution des tests »Les tests peuvent être exécutés en utilisant l’interface en ligne de commande genaiscript
ou dans Visual Studio Code (voir scripts de test).
genaiscript test summarizer
Ensuite, ouvrez le tableau de bord PromptFoo pour voir les résultats des tests.
genaiscript test view