返回
企业应用

BLEU 有哪些缺点?

BLEU 虽然流行,但在评估文本质量方面并不可靠。其过于简化的方法无法准确评估含义或流畅度。

BLEU 仅关注与参考译文的表层 n-gram 匹配,忽视语义充分性和语法正确性。它严重偏向统计相似性而非真正的翻译质量。简短惩罚不公平地惩罚了比参考译文短但合理的译文。BLEU 对其 n-gram 范围之外的词序变化不敏感,有时会奖励无意义的输出。它完全依赖高质量参考文本的可用性。

这些局限性降低了 BLEU 在现实 NLP 任务中的价值。其分数常常与人工判断不一致,尤其是对于细致或有创意的语言。尽管 BLEU 在研究和商业系统中有历史使用,开发者越来越多地用语义感知指标(如 BERTScore)和人工评估来补充或替代它。

FAQ

相关问题