如何计算一段文本使用的 Token 数量

Question

Accepted Answer

计算文本的 Token 数量，需要将输入文本拆分为大语言模型处理的基本单元，这些单元可以是词、子词或字符。OpenAI 的 "tiktoken" 库或 Hugging Face 的分词器等工具，可以为各自对应的模型自动完成这一计算。

Token 数量因模型和分词方法的不同而存在显著差异。同一个词可能是单个 Token，也可能被拆分为多个子词 Token。空格和标点符号都会计入 Token 数量，而多语言文本每个词通常会消耗更多 Token。获取与目标模型对应的专用分词器对于精确计算至关重要，因为手动计数既不实际也容易出错。

计算 Token 的步骤如下：首先选择与您使用的大语言模型匹配的分词器（例如，GPT-4 对应 "cl100k_base"）；然后使用其专用库初始化该分词器；将输入文本传入分词器的编码方法；输出结果为分词后的列表，其长度（"len(tokens)"）即为精确的 Token 数量。这样可以精准估算 API 使用成本和输入/输出的限制。

如何计算一段文本使用的 Token 数量

相关问题

模型微调和重新训练之间差别大吗？

零样本学习和小样本学习有什么区别？

小样本学习的应用场景有哪些？

BLEU 指标和 ROUGE 有什么区别？