Anthropic 推出 Claude Opus 4.5 编程能力超越 Gemini 3 Pro

资安 • 2025年11月25日 14:06 • 投稿

Anthropic 发布了其最新的顶级模型 Claude Opus 4.5。该公司表示，该模型在软件工程基准测试中创下纪录，运行效率更高，并为Claude平台增加了新的控制和代理功能。

效能提升与价格调整

在 Sonnet 4.5 发布两个月后，Anthropic 推出了其下一个旗舰模型：Claude Opus 4.5。 Anthropic 将其描述为世界上最强大的编程、自主代理和计算机控制模型，在电子表格编辑、深度研究和幻灯片创建等日常任务中均有所提升。 Opus 4.5 的定价为每百万输入 tokens 5 美元，每百万输出 tokens 25 美元，此举旨在应对市场上日益增长的价格压力。相较之下，5月发布的Opus 4定价为每百万输入tokens 15美元和每百万输出tokens 75美元，因此Opus 4.5的价格降幅约为三分之二。

基准测试与实际应用

为了展示 Opus 4.5 的能力，Anthropic 采用了一项内部基准测试：该公司自己的性能工程招聘测试，并称其「非常困难」。 Anthropic表示，该模型在两小时的限制时间内，表现优于所有参加过考试的人类候选人。该测试侧重于时间压力下的技术判断，不衡量社交或直觉技能。即便如此，该结果也引发了关于 AI 可能如何重塑软件工程师工作的更广泛问题。 Anthropic 还提到了 SWE-bench Verified 基准测试，该基准测试评估模型在真实软件开发任务中的表现。在这些结果中，Claude Opus 4.5略微领先于谷歌的 Gemini 3 Pro 和 OpenAI 以编码为重点的 Codex 5.1 Max。

新功能与应用整合

Opus 4.5 引入了一个名为 Effort 参数的 API 变量，开发人员可以借此控制模型在任务中投入多少计算资源。此外，Claude Code也通过Opus 4.5获得了两项重大更新。增强的 Plan Mode 旨在通过提示 Opus 4.5 提出澄清问题，然后在进行任何代码变更之前生成可编辑的 plan.md 文件，从而产生更准确的计划。

Claude Code 现在也可在桌面应用程序中使用，允许用户并行运行本地和远程会话，例如，同时修复错误、在 GitHub 上进行研究和更新文件。 Claude 应用程序的用户还应体验到更流畅的长对话。该模型现在可以在需要时总结较旧的交换部分，而不是达到硬性上下文限制。 Anthropic 表示，Claude for Chrome 插件（可让 Claude 管理多个选项卡中的任务）现已向所有 Max 用户开放。

Anthropic 推出 Claude Opus 4.5 编程能力超越 Gemini 3 Pro

效能提升与价格调整

基准测试与实际应用

新功能与应用整合

相关推荐

发表回复