返回
企业应用
BLEU 分数是如何计算的?
BLEU(双语评估替补)计算机器生成译文与一个或多个高质量人工参考译文之间的相似度。它生成一个 0 到 1 之间的分数,其中 1 表示完全匹配。
它计算候选译文与参考译文之间匹配 n-gram 的精度(通常 n=1 到 4)。这种"修正精度"惩罚重复的候选 n-gram。为解决非常短的输出可能导致分数虚高的问题,引入了简短惩罚。最后,将各 n-gram 精度通过几何平均进行组合,通常使用等权重。
BLEU 作为评估机器翻译系统输出质量的快速、一致且可扩展的自动化指标,有助于跟踪模型开发过程中的进展,高效比较不同系统。虽然有价值,但它主要测量表层 n-gram 重叠,与人工对流畅度和含义的判断相关性不完全;通常应与人工评估结合使用。
FAQ