基准

投稿

Google 發佈 Gemini 3 AI 模型　跑分全面超越 GPT 5.1

谷歌最新發佈的 Gemini 3 模型在多項 AI 基準測試中超越了 OpenAI 的 GPT 5.1，展現了其在推理和多模態能力方面的優勢。該模型在 LMArena …

Playstation爱好者
2025年11月19日
投稿

研究指 LLM 模型 Benchmark 存在重大缺陷无法反映真实能力

一项新的国际研究指出，大型语言模型（LLM）Benchmark存在重大问题，显示大多数目前的评估方法存在严重缺陷。研究人员审查了来自顶级 AI 会议的 445 篇基准测试论文后发…

GM游戏评测
2025年11月9日