为什么用 BLEU 来评估翻译质量？

Question

为什么用 BLEU 来评估翻译质量？

Accepted Answer

BLEU（双语评估替补）是一种广泛采用的自动化指标，用于评估机器翻译（MT）输出质量。其核心功能是量化机器生成译文与人工提供的高质量参考译文之间的相似度。

BLEU 主要基于 n-gram 精度计算分数，比较机器译文中有多少连续词序列（n-gram）出现在参考译文中。它通过简短因子惩罚过短的输出。虽然对大规模评估来说高效且客观，但 BLEU 存在局限性。它严重依赖表层匹配，通常与流畅度的相关性强于深度语义充分性。其性能对所用参考译文的数量和质量敏感，对于参考译文中未出现的有效改述可能表现不佳。

BLEU 的主要价值在于其自动化、速度、成本效益和一致性。这使得在研究、开发和部署阶段快速迭代和比较不同的机器翻译系统或配置成为可能。尽管其与意义和自然度的人工判断存在已知相关性弱点，BLEU 仍提供了跟踪翻译模型随时间改进情况的标准化基准。

为什么用 BLEU 来评估翻译质量？

相关问题

模型微调和重新训练之间差别大吗？

零样本学习和小样本学习有什么区别？

小样本学习的应用场景有哪些？

BLEU 指标和 ROUGE 有什么区别？