研究指 LLM 模型 Benchmark 存在重大缺陷 无法反映真实能力

一项新的国际研究指出,大型语言模型(LLM)Benchmark存在重大问题,显示大多数目前的评估方法存在严重缺陷。 研究人员审查了来自顶级 AI 会议的 445 篇基准测试论文后发现,几乎所有基准测试都存在根本性的方法论问题。

定义不明与人工任务

研究发现,基准测试的定义往往模糊不清或存在争议。 虽然 78% 的基准测试定义了其测量内容,但其中近一半的定义模糊或具争议性。 诸如「推理」、「对齐」和「安全」等关键术语常未被定义,导致结论不可靠。 此外,41%的基准测试使用人工任务,其中29%完全依赖这类任务。 只有约10%的测试使用实际反映模型应用方式的真实世界任务。

采样不良与数据重复

采样是目前 LLM 基准测试的另一个主要弱点。 约39%的测试依赖便利采样,其中12%完全采用此方式。 资料重复使用也相当普遍。 大约38%的基准测试重复使用来自人工测试或现有来源的数据,许多测试更是严重依赖其他基准测试的数据集。 这种做法可能会扭曲结果。 大多数基准测试也缺乏严谨的统计分析。 超过80%的测试使用精确匹配分数,但只有16%应用统计检定来比较模型。

改善之道与评估挑战

研究团队为未来的发展指明了方向:精确定义每个基准测试的测量内容,并设置清晰具体的界线。 资料集的选择应出于刻意,而非仅基于方便。 强大的统计方法和不确定性估计对于有意义的模型比较至关重要。 尽管存在缺陷,基准测试仍是 AI 研究的基础。 然而,随着大型语言模型日益复杂且相关利害关系提升,弱点或误导性基准测试的风险也随之增加。 若缺乏更严格的标准和完全的透明度,将无法区分真正的进步与仅为通过测试而优化的结果。

研究指 LLM 模型 Benchmark 存在重大缺陷 无法反映真实能力
(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表回复

登录后才能评论