
Tokeniseurs
Le module d’aide tokenizers
fournit un ensemble de fonctions pour diviser le texte en tokens.
const n = tokenizers.count("hello world")
Choisir votre tokeniseur
Section intitulée « Choisir votre tokeniseur »Par défaut, le module tokenizers
utilise le tokeniseur large
. Vous pouvez changer de tokeniseur en passant l’identifiant du modèle.
const n = await tokenizers.count("hello world", { model: "gpt-4o-mini" })
Compte le nombre de tokens dans une chaîne de caractères.
const n = await tokenizers.count("hello world")
truncate
Section intitulée « truncate »Supprime une partie de la chaîne pour respecter un budget de tokens
const truncated = await tokenizers.truncate("hello world", 5)
Divise le texte en segments d’une taille de tokens donnée. Le segment essaie de trouver des frontières de découpage appropriées en fonction du type de document.
const chunks = await tokenizers.chunk(env.files[0])for(const chunk of chunks) { ...}
Vous pouvez configurer la taille des segments, le chevauchement et ajouter des numéros de ligne.
const chunks = await tokenizers.chunk(env.files[0], { chunkSize: 128, chunkOverlap 10, lineNumbers: true})