基准
-
Google 發佈 Gemini 3 AI 模型 跑分全面超越 GPT 5.1
谷歌 最新發佈的 Gemini 3 模型在多項 AI 基準測試中超越了 OpenAI 的 GPT 5.1,展現了其在推理和多模態能力方面的優勢。該模型在 LMArena …
-
研究指 LLM 模型 Benchmark 存在重大缺陷 无法反映真实能力
一项新的国际研究指出,大型语言模型(LLM)Benchmark存在重大问题,显示大多数目前的评估方法存在严重缺陷。 研究人员审查了来自顶级 AI 会议的 445 篇基准测试论文后发…
