昨天 23:17 快手_后端开发

发布于北京

关注

AI认知篇6：详解Token

这是我的agent系列文章的第5篇，该系列分为三部分：

AI认知篇：详细讲解相关基础概念
AI实践篇：分享诸如skills怎么写、怎么ai coding、怎么写好prompt等的最佳实践
AI八股篇：分享我自己整理的应付大模型应用开发岗位必备的八股笔记（后端与agent2手抓学习专栏

一、巴别塔困境：为什么大模型看不懂人话？

要理解 Token，首先得明白大模型到底是个什么东西。

尽管现在的 AI 能写诗、 coding、做数学题，表现得像个人类，但它的“大脑”本质上是一个巨大的数学函数。它只认识数字（向量），完全不认识文字、图片或声音。如果你直接把一段中文或英文文本扔给大模型，对它来说，这就像是一堆毫无意义的乱码，无法进行任何矩阵运算。

这就产生了一个根本性的矛盾：人类用自然语言交流，而机器只处理数字。

为了解决这个“巴别塔”式的沟通障碍，我们需要一个中间的“翻译官”。这个翻译官负责两件事：

编码（Encoding）：把人类看得懂的文本，切分成最小的单元，并转换成机器看得懂的数字 ID。
解码（Decoding）：把模型计算出来的数字 ID，还原回人类看得懂的文本。

这个“翻译官”就是 Tokenizer（分词器），而被切分出来的最小单元，就是 Token。

核心结论：大模型从未真正“阅读”过文字。它看到的永远是一串类似 [45, 1024, 89, 332] 这样的数字序列。它生成的每一个字，本质上都是在预测下一个数字是什么。Token，就是连接人类语义世界与机器数学世界的唯一桥梁。

二、Token 是如何诞生的？BPE 算法的魔法

Token 不是程序员手动定义的字典（比如规定 "apple" 是一个 Token，"banana" 是一个 Token）。如果是手动定义，面对人类海量的词汇和新造词，这本字典将无穷大且永远无法维护。

现代主流大模型（如 GPT-4, Llama 3, Qwen 等）的 Tokenizer，大多是基于一种名为 BPE（Byte Pair Encoding，字节对编码） 的算法训练出来的。

BPE 的核心思想非常朴素且优雅：统计频率，合并高频。它通过不断寻找数据中出现频率最高的字符组合，将它们“粘合”成一个新的单元，从而实现对文本的高效压缩。

1. 从零开始的训练过程

让我们通过一个极简的例子，模拟 BPE 算法是如何“炼”成一个分词器的。

假设我们的训练语料库只有这么几个单词："hug", "pug", "pun", "bun", "hugs"

第一步：字符级初始化

最初，词汇表里只有单个字符。算法先把所有单词拆成单字列表：

h, u, g
p, u, g
p, u, n
b, u, n
h, u, g, s

此时，表示 "hug" 需要 3 个 Token。

第二步：统计频率，寻找“最佳搭档”

算法遍历整个语料，统计相邻字符对出现的次数：

"u" + "g"：出现了 3 次（在 hug, pug, hugs 中）
"u" + "n"：出现了 2 次（在 pun, bun 中）
"h" + "u"：出现了 2 次
...

显然，"u" 和 "g" 是出现频率最高的搭档。

第三步：合并，创造新 Token

算法决定将 "u" 和 "g" 合并成一个新的单元 "ug"，并将其加入词汇表。现在，单词的表示变成了：

h, ug （2 个 Token）
p, ug （2 个 Token）
p, u, n （3 个 Token，未变）
b, u, n （3 个 Token，未变）
h, ug, s （3 个 Token）

看，"hug" 和 "pug" 的表示长度缩短了，压缩效率提升。

第四步：迭代，直到满足条件

算法不会停歇。基于新的单元列表，它再次统计频率。这次可能会发现，"h" + "ug" 经常一起出现（在 "hug" 和 "hugs" 的开头）。于是，算法将 "h" 和 "ug" 合并成 "hug"，加入词汇表。

现在的表示：

hug （1 个 Token！）
p, ug （2 个 Token）
hug, s （2 个 Token）

这个过程会重复成千上万次。

常见的短单词（如 "the", "is", "a"）会很快被合并成一个 Token。
常见的词根（如 "ing", "tion", "pre"）也会成为独立 Token。
最终，我们会得到一个包含 3 万到 10 万个单元的词汇表。这个词汇表就是大模型的“世界观”。

关键洞察：BPE 算法是一种有损压缩。它优先保证高频内容的压缩率（常用词变短），而低频内容（生僻词、乱码）则保留为多个字符。这也解释了为什么大模型对常用语理解深刻，而对生僻怪诞的内容反应迟钝——因为在它的“词汇表”里，后者只是零散的碎片。

三、实战现场：当你输入一句话时发生了什么？

当训练好的 Tokenizer 面对用户的新输入时，它不再进行统计合并，而是执行最大匹配原则（Longest Match First）。它会拿着那本厚厚的词汇表，试图在输入文本中找到最长的匹配项。

场景演示

假设我们的词汇表里有以下单元（注意空格的处理）：["I", " love", " AI", " lo", "ve", "r", " art", "ist"]注：在英文 BPE 中，空格通常作为前缀附着在单词前面，以区分 "love"（动词）和 "love"（名词后缀等情况），这里简化演示。

案例 A：完美匹配

输入："I love AI"

扫描 "I" -> 匹配成功。
扫描 " love"（带空格） -> 词汇表中有 " love"，匹配成功。
扫描 " AI" -> 词汇表中有 " AI"，匹配成功。结果：["I", " love", " AI"] -> 映射为 3 个数字 ID。

案例 B：未知词拆解

输入："I lover AI"

扫描 "I" -> 匹配。
扫描 " lover" -> 词汇表中没有 "lover" 这个词。尝试去掉最后一个字 "r"，看 " love" 是否在？-> 在！匹配 " love"。剩下 "r"。词汇表中有 "r" 吗？-> 有。匹配 "r"。
扫描 " AI" -> 匹配。结果：["I", " love", "r", " AI"] -> 映射为 4 个数字 ID。

细节揭秘：

空格即正义：你会发现 "love" 和 " love" 是不同的 Token。这是为了帮模型识别单词边界。如果没有空格信息，"whitehouse" 可能会被误判为 "white" + "house" 或者完全不同的词。
OOV（Out of Vocabulary）问题：如果遇到完全没见过的生僻词（比如一个新造的人名 "Zqxrb"），Tokenizer 会将其无情地拆解为单个字符 ["Z", "q", "x", "r", "b"]。这意味着模型处理这个词时，需要消耗更多的算力（更多 Token），且理解难度加大，因为它失去了整体语义的提示。

四、核心误区粉碎：1 个 Token 到底等于多少字？

这是所有开发者和用户最关心的问题，也是最大的误区来源。

真相是：Token 和字数之间不存在固定的换算公式。 它们的关系高度依赖于语言类型、文本内容以及具体的模型词汇表。

1. 英文环境：相对规律

由于 BPE 算法是在大量英文语料上训练的，英文的压缩效率很高。

经验法则：1000 个 Token ≈ 750 个英文单词。
平均比例：1 个 Token ≈ 0.75 个英文单词（或者说 1.33 个单词 = 1 Token）。
波动因素简单文本（如儿童读物）：常用词多，Token 少。复杂文本（如科技论文）：长难词多，容易被拆分，Token 多。代码：关键字（def, return）通常是 1 个 Token，但长变量名（user_input_data_list）会被拆成 user, _input, _data, _list 等多个 Token。

2. 中文环境：复杂的“一字多 Token”

中文是表意文字，每个汉字本身就是一个完整的语义单元，这与英文的字母组合逻辑完全不同。

早期模型：很多早期模型对中文支持不佳，基本上1 个汉字 = 1 个 Token，甚至因为标点符号或特殊编码，1 个汉字 > 1 个 Token。
现代优化模型：如 Qwen（通义千问）、GLM 等国产模型，以及经过中文微调的 Llama 3，在词汇表中加入了大量的中文常用词（如“中国”、“人工智能”、“但是”）。对于高频词：可能 2-4 个汉字 = 1 个 Token。对于普通文本：大部分情况下仍接近 1 个汉字 ≈ 1~1.5 个 Token。
残酷的估算：在混合场景下，业界通用的保守估算是1 个 Token ≈ 0.6 ~ 0.8 个汉字也就是说，1000 个汉字大约需要消耗 1200 ~ 1600 个 Token。这意味着，同样的上下文窗口，能容纳的中文字数往往比预想的要少。

3. 特殊内容的“Token 爆炸”

有些内容会让 Token 数量激增，务必警惕：

数字串：模型通常不把长数字当作一个整体。192837465 可能会被拆分成 19, 28, 37, 46, 5 等多个 Token。
URL 链接：一串随机的 URL 字符几乎无法匹配任何高频组合，会被拆解成极多的单字符 Token。
特殊符号与代码缩进：大量的空格、Tab 键在 Python 代码中都是独立的 Token。

4. Context Window 的真实容量

当厂商宣传“128K Context Window”时，指的是 128,000 个 Token，绝不是 128,000 个字！

一本《红楼梦》：约 73 万字。按 1.5 Token/字计算，需要约 110 万 Token。即使是 128K 窗口的模型，也无法一次性读完整本《红楼梦》。它大概只能读进去 7-8 万字左右。
误导性宣传：很多用户以为 40 万窗口能装下几百万字的文档，结果发现模型“失忆”了，其实就是因为 Token 算错了，前面的内容被截断（Truncated）了。

五、开发者视角的启示与避坑指南

理解了 Token 的本质，我们在实际应用大模型时就能做出更明智的决策。以下是几条基于底层原理的实战建议：

1. 成本控制的微观艺术

API 计费是按 Token 算的（输入 + 输出）。

Prompt 瘦身：检查你的 Prompt，删除所有不必要的客套话（“请帮我...”、“作为一个专家...”虽然有用，但过多会浪费 Token）。
上下文管理：在多轮对话中，不要无脑地把历史所有对话都塞进去。使用滑动窗口策略，只保留最近的 N 轮对话，或者使用摘要机制，将旧对话压缩成一段简短的总结再传给模型。
Few-Shot 优化：在使用少样本学习（Few-Shot Learning）时，精心挑选最具代表性的例子，而不是堆砌数量。每个例子都在烧钱。

2. 长文本处理的正确姿势

既然模型窗口有限，如何处理超长文档？

RAG（检索增强生成）：这是目前的黄金标准。不要把整本书扔给模型。先将文档切片（Chunking），存入向量数据库。用户提问时，只检索最相关的几个片段（共几千 Token）喂给模型。既省钱，又准确，还突破了窗口限制。
Map-Reduce：对于需要总结全书的任务，可以分段总结（Map），然后再将各段总结汇总（Reduce）。

3. 调试与观测

不要猜，要测：在关键业务中，永远不要依赖“大概”的换算比例。利用官方提供的 tiktoken (OpenAI) 或各厂商的计数工具，精确计算你的 Prompt 会消耗多少 Token。
关注特殊字符：如果你的应用涉及大量代码、日志或随机字符串，务必意识到 Token 消耗会比普通文本高出数倍，提前做好预算预警。

4. 理解模型的“幻觉”来源

有时候模型胡说八道，可能是因为 Token 切分出了问题。

例如，一个生僻的专业术语被拆成了几个无意义的字符碎片，模型在预测下一个 Token 时，失去了整体语义的约束，只能基于概率瞎猜，从而产生幻觉。
遇到这种情况，尝试在 Prompt 中对该术语进行解释，或者强制模型以特定的格式输出，有时能缓解这个问题。

六、其他

考研失利想速成冲春招或找实习的可以看看我发过的这篇帖子：论考研失利如何冲春招

想要学习Java冲实习或冲春招的，我能助你一臂之力，我之前整理了高质量可速成的魔改外卖项目话术和7000字轮子项目话术，还有超全超精品八股大全专栏，怎么写简历，怎么包装实习经历，怎么0基础速成冲春招和实习等等精品帖子，大家可以去看看我的精品文章汇总帖子：往期精品秋招帖子汇总

我的java和大模型应用开发全专栏（20w人学习，超千人订阅，牛客最受欢迎最高质量java八股专栏，内容包含： 1.八股大全：多一句没有少一句不行的最精简八股整理，完全可以应付校招社招的八股拷打！ 2.速成项目话术：目前有魔改苍穹外卖项目话术（额外扩展了很多技术亮点），能速成拿去面试，后面会更新魔改黑马点评、商城项目等等热门高质量项目话术 3.智力题超详细题解汇总； 4.面试时非技术问题话术整理，绝对震惊面试官一年； 5.算法lc hot100全题系列题解：绝对通俗易懂；6、场景题汇总：快速冲刺秋招专栏