返回
企业应用
为什么用困惑度来衡量模型?
困惑度量化了概率模型(尤其是语言模型)预测一段文本的准确性。它作为核心的内在评估指标,直接反映模型的预测置信度。
困惑度基于模型对测试数据的逆概率计算,按词数归一化。困惑度分数越低,表示模型对测试数据越不"意外",即预测性能越好。它支持比较在相似数据上训练的不同模型或架构。困惑度对于调整模型超参数也很有价值,无需进行代价高昂的人工评估,因为它直接从模型对保留数据集的输出概率计算得出。
测量困惑度提供了一种高效、定量的方式来评估语言模型估计词序列的基本能力。训练时优化以降低困惑度通常与生成文本的流畅性和连贯性提升高度相关。但困惑度主要评估预测概率而非语义准确性、任务特定实用性或人类偏好,这些应单独评估。它仍是部署前的重要检查点。
FAQ