返回
企业应用

BLEU 分数越高越好吗?

不,BLEU 分数越高并不总等于翻译质量越好。虽然它是一种广泛使用的自动化指标,但存在显著局限性。

BLEU 衡量机器译文输出与一个或多个人工参考译文之间的 n-gram 重叠度。它在汇总比较中与人工判断有合理相关性。然而,它无法捕获语义充分性、流畅度或文体恰当性。仅以 BLEU 为优化目标可能导致输出在表面上与参考译文匹配,但缺乏连贯性或含义。该指标对参考译文质量、领域特殊性和文本长度也高度敏感。

BLEU 主要在开发过程中用于系统级比较,提供效率。它对于评估单个句子或进行细微质量区分并不可靠。获得高分并不能保证翻译真正高质量。人工评估对于评估真实的翻译质量和实用性仍然是必不可少的补充,因为 BLEU 无法完全理解意义或上下文。

FAQ

相关问题