返回
企业应用

BLEU 能衡量生成文本的流畅度吗?

BLEU 不能直接衡量生成文本的流畅度。它主要通过比较生成输出与参考译文之间的 n-gram 重叠来评估精度。

BLEU 侧重于词汇相似性而非语法正确性、句法结构或自然流畅度。它统计匹配的词序列,但忽略 n-gram 范围之外的词序,不评估句子结构或语义连贯性。高 BLEU 分数有时会出现在语法别扭或无意义的输出中。其有效性仅限于具有高质量参考文本的翻译类任务,对许多流畅度错误不敏感。

其核心应用是在机器翻译开发中高效地自动化评估翻译充分性和精度。对于真正的流畅度评估,必须使用互补方法:以自然度为重点的人工判断、测量困惑度的专用语言模型(如 GPT 或 BERT 评分),或专门为流畅度和语法性设计的指标(如 YiSi 或统计解析器)。

FAQ

相关问题