苦头陀

07-10 05:59 杭州超限数动科技有限公司_大模型数据安全部_研发专家

发布于浙江

关注

# “你翻得还行，但我得看 BLEU 脸色！”——聊聊机器翻译的评分裁判：BLEU 分数

1. 开场白

在这个“AI 都能写情书”的时代，机器翻译早就不稀奇了。但问题是：翻译得好不好，谁说了算？

谷歌翻译说自己翻得不错？不行，太主观！
你说它翻得烂？也不行，你也不专业！

于是，咱们引入了一位 铁面无私、不偏不倚 的老裁判 —— BLEU 分数（Bilingual Evaluation Understudy）。

2. BLEU 分数是啥？

你可以把 BLEU 想成“翻译届的卷面得分”。它做的事很简单：

比对机器翻的句子和人类翻的句子，看像不像！

你翻得越像人类，分越高；你胡说八道，离谱得很，分数自然就低了。

BLEU 分数一般在 0 到 1 之间（有时候也乘个 100 表示为百分制），越高越好。

0.9 是“神还原”
0.5 是“懂个大概”
0.1 就是“你这句是 AI 翻的吗？”

3. BLEU 分数怎么计算？

BLEU 分数的核心思路其实可以用一句话总结：

“多长多准是关键！”

我们配合一段 Python 代码（如下），来通俗解释 BLEU 分数的计算流程。

def bleu(pred_seq, label_seq, k):
    pred_tokens, label_tokens = pred_seq.split(' '), label_seq.split(' ')
    len_pred, len_label = len(pred_tokens), len(label_tokens)
    score = math.exp(min(0, 1 - len_label / len_pred))
    for n in range(1, k + 1):
        num_matches, label_subs = 0, collections.defaultdict(int)
        for i in range(len_label - n + 1):
            label_subs[' '.join(label_tokens[i: i + n])] += 1
        for i in range(len_pred - n + 1):
            if label_subs[' '.join(pred_tokens[i: i + n])] > 0:
                num_matches += 1
                label_subs[' '.join(pred_tokens[i: i + n])] -= 1
        score *= math.pow(num_matches / (len_pred - n + 1), math.pow(0.5, n))
    return score

步骤 1：分词（tokenize）

pred_tokens, label_tokens = pred_seq.split(' '), label_seq.split(' ')

机器翻译的句子是 pred_seq，标准答案是 label_seq，先按照空格分词，像切香肠一样切成一个个词。

就像你考试写作文，我们要一字一句对答案看看你对了几个词。

步骤 2：惩罚“废话太多”的机器（brevity penalty）

score = math.exp(min(0, 1 - len_label / len_pred))

这是个特别“毒舌”的机制。如果你机器翻译得太长、太啰嗦（也就是你写了很多“废话”），就会被扣分。

📌 举个例子：标准答案是 6 个词，你写了 20 个，看着对了一些词，但废话太多？扣你分！

这个惩罚指数叫做 brevity penalty（简洁惩罚）。

步骤 3：查重词组匹配（n-gram）

for n in range(1, k + 1):

BLEU 会逐级检查你对答案的“相似度”——从单词（1-gram）到词组（2-gram、3-gram……），最多查到你指定的 k 阶（通常为4）。

你可以理解成：

看你是不是抄了关键词（1-gram）？

看你是不是抄了完整短语（2-gram）？

看你是不是直接照搬整句话（3-gram、4-gram）？

它就像一个监考老师，查你是不是原汁原味地“抄”了人类翻译。

步骤 4：算命中率 + 平均

score *= math.pow(num_matches / (len_pred - n + 1), math.pow(0.5, n))

对每一级的匹配，都算一个“命中率”，然后按照权重（常见是 0.5 的 n 次方）相乘求个总分。

⚠️ 注意：只要你某一级错得多，整体分数会迅速拉低，简直比高考还严格。

4. BLEU 的应用场景

BLEU 分数是机器翻译界的标配打分工具，但它也被广泛用于：

💬 对话系统：AI 说的回复是否符合人类语言风格；
📝 文本摘要：自动生成的摘要与标准摘要是否一致；
🖼️ 图像描述：生成的图片描述与参考描述是否吻合；
🧑‍💻 代码生成：AI 生成的代码和标准答案匹不匹配。

只要是 “自动生成文本 vs. 标准答案” 的场景，都能用它来客观评估效果。

5. 小结一下

✅ BLEU 是“比对翻译内容相似度”的打分机制；
✅ 它通过 n-gram 匹配 + 简洁惩罚来综合评估结果；
✅ 分数越高，说明机器翻得越像人！

BLEU 分数就像 AI 语言的“语文老师”：

它不看你有没有发挥创意，只看你抄没抄对；
它注重 短语匹配 而非语义；
它严格、冷酷、但很有用。

虽然不是完美的指标，但它简单、高效、可量化，是衡量机器翻译效果的老大哥！

如果你还没明白，放心！BLEU 这位老裁判会在你训练模型的时候，一路陪着你，疯狂打分，直到你翻出“神级水准”！

大模型小白拆解站文章被收录于专栏

想和大模型零障碍对话？这里是你的入门急救站！从大模型到底是啥到训练时都在干啥，用大白话拆解技术原理；从参数是个啥到微调怎么玩，用生活案例讲透核心概念。拒绝枯燥公式，只有能听懂的干货和冷到爆的梗;帮你从大模型小白变身入门小能手，轻松get前沿AI知识！

全部评论

推荐最新楼层

07-11 10:49

山东大学嵌入式软件开发

在生活中逐渐打磨自己

意识到自己长大似乎不是一个瞬间的事情是由曾经计划被打乱的气急败坏到现在只会第一时间冷静的寻找解决方案；是由曾经对父母的社会经验不屑一顾到现在在切身体会中认识到社会的本质、看到学校没有教给我们的另一面；是由曾经对朋友的过分信任到现在说什么都要留三分余地；我想真正的成熟不是某个顿悟瞬间，而是把年少锐角磨成温润弧度的漫长包浆过程，愿我们在生活的惊涛里，把每一次暗礁的撞击都刻成航标，让所有淋过的雨都蓄成滋养明天的深潭——从此行船不需借风，自己便是那艘压得稳浪的船。

哪一瞬间觉得自己长大了

点赞评论收藏

06-24 16:23

深圳大学运营

公考体检被刷下来的人多吗？

军队文职体检实行**“一票否决制”**，任何一项指标不合格即直接淘汰。但部分项目可复检，部分则无申诉机会。以下是关键规则及应对策略：⚠️ 一、直接淘汰的“硬性指标”（不可复检）身高体重身高：男性＜162cm、女性＜158cm（红外测量无误差）。BMI：男性＜17.5或＞30、女性＜17或＞24（空腹血糖≥7.0mmol/L直接淘汰）。案例：女性考生158cm被红外仪判定“157.9cm”，申诉失败。纹身与疤痕纹身：夏季制服裸露部位（手臂、小腿）纹身＞3cm，女性纹唇均不合格。疤痕：面部/颈部＞3cm、其他部位＞10cm或影响关节功能直接淘汰。视力与手术史裸眼视力＜4.5，或矫正视力＜4.8且度...

公务员体检标准介绍

点赞评论收藏

07-04 17:22

已编辑

河北大学 Java

一定要早点投，一定要

这世上没有什么事情是准备好再做的，宣传和实情往往是两码事，形势随时在变动，当然这不是你不准备的理由，准备差不多就行了，还得根据形势调整。1.合理准备：光准备那是闭门造车，把已知必考的准备了，然后先投投外包小公司啥的，练练手，毕竟人家也有绩效，我获得了经验，你获得了kpi，双赢啊2.预热状态：面试是一个过程，他需要你去进入面试这样一个状态，最好提前预热，这样你可以在你状态最好的时候，去面你想去的公司，不然你的状态，就像一个多年不运转的机器，这不对劲那不对劲，一运转直掉锈3.保持信心：现在不同以往了，工作不好找，碰壁是肯定的，一定要给自己设立心理防线，做好心理建设，可以先拿一些小公司的offer，给自己提提信心。就这么多吧，今天去试了试阿维塔，真不错

秋招什么时候开投比较合适...

点赞评论收藏

06-30 20:58

TCL科技集团股份有限公司_AI算法工程师(准入职员工)

TCL内推

TCL前端笔试题目：以下是一些 TCL前端笔试题目：以下关于 HTML5 语义化标签的说法，错误的是？在 CSS 中，以下哪个属性用于设置元素的定位方式？以下哪种不是前端性能优化的常见方法？当使用 Flex 布局时，以下哪个属性用于设置子元素在主轴上的对齐方式？简答题请简述 HTML、CSS 和 JavaScript 在前端开发中的作用分别是什么，以及它们之间的关系。解释一下什么是浏览器的回流（reflow）和重绘（repaint），并说明如何避免或减少它们对性能的影响。列举三种你熟悉的前端框架，并简要说明它们的特点和适用场景。如何实现一个响应式布局，使其在不同屏幕尺寸的设备上都能有良好的显示...

点赞评论收藏

07-11 09:25

东南大学 Java

毕业答辩时导师给我上了最后一课

看到这个话题想到论文答辩时的一些事情，因为答辩时间比较晚，只安排了包括我在内的三位同学进行了答辩，导师只在开始和最后旁听了一下，中间不在场。第一个事情是给在场老师的茶歇准备上，我们当时只准备了瓶装矿泉水，导师早上看到后又去办公室拿了茶叶让我们泡上，第一位同学答辩时我给老师们倒了茶叶，随后就一直没有补充，后边导师离开的时候发微信给另一位同门提示给老师们倒水，但是他手机放在一旁充电没有看到消息，一直到最后只有第一杯茶叶水。第二个事情是答辩结束后叫我们进去说补拍一下照片吧，答辩时没有拍照留存，最后每位同学站在前边拍了几张答辩时的照片。结束后导师把我们叫过去，给我们说第一个问题是没有眼力见，看到老师水喝完了没人给倒，发消息提醒了最后过去还是没人倒水。第二个问题是没有留痕，虽然可能没有要求提供答辩照片，万一真要上传答辩照片手里没有怎么办，告诉我们做任何事情都要留痕，以后工作更要注意。后续反思觉得老师说得确实有道理，自己一直在学校中还是很不成熟，也算是导师的最后一课吧

社会教会你的第一课

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 如果公司给你放一天假，你会怎么度过？ #