An 8-bit style illustration of a geometric speech bubble made up of distinct, colored blocks to represent separate text tokens; some small colored rectangles detach from the main shape, symbolizing text chunking; a basic slider icon illustrates truncation. The image is minimalistic, flat, in five colors, sized 128x128 pixels, with no background or human figures.

Tokeniseurs

Le module d’aide tokenizers fournit un ensemble de fonctions pour diviser le texte en tokens.

const n = tokenizers.count("hello world")

Choisir votre tokeniseur

Par défaut, le module tokenizers utilise le tokeniseur large. Vous pouvez changer de tokeniseur en passant l’identifiant du modèle.

const n = await tokenizers.count("hello world", { model: "gpt-4o-mini" })

`count`

Compte le nombre de tokens dans une chaîne de caractères.

const n = await tokenizers.count("hello world")

`truncate`

Supprime une partie de la chaîne pour respecter un budget de tokens

const truncated = await tokenizers.truncate("hello world", 5)

`chunk`

Divise le texte en segments d’une taille de tokens donnée. Le segment essaie de trouver des frontières de découpage appropriées en fonction du type de document.

const chunks = await tokenizers.chunk(env.files[0])
for(const chunk of chunks) {
    ...
}

Vous pouvez configurer la taille des segments, le chevauchement et ajouter des numéros de ligne.

const chunks = await tokenizers.chunk(env.files[0], {
    chunkSize: 128,
    chunkOverlap 10,
    lineNumbers: true
})