Anthropic 推出 Claude Opus 4.5 编程能力超越 Gemini 3 Pro

Anthropic 发布了其最新的顶级模型 Claude Opus 4.5。 该公司表示,该模型在软件工程基准测试中创下纪录,运行效率更高,并为Claude平台增加了新的控制和代理功能。

与Claude相关的图片

效能提升与价格调整

在 Sonnet 4.5 发布两个月后,Anthropic 推出了其下一个旗舰模型:Claude Opus 4.5。 Anthropic 将其描述为世界上最强大的编程、自主代理和计算机控制模型,在电子表格编辑、深度研究和幻灯片创建等日常任务中均有所提升。 Opus 4.5 的定价为每百万输入 tokens 5 美元,每百万输出 tokens 25 美元,此举旨在应对市场上日益增长的价格压力。 相较之下,5月发布的Opus 4定价为每百万输入tokens 15美元和每百万输出tokens 75美元,因此Opus 4.5的价格降幅约为三分之二。

screenshot 372

基准测试与实际应用

为了展示 Opus 4.5 的能力,Anthropic 采用了一项内部基准测试:该公司自己的性能工程招聘测试,并称其「非常困难」。 Anthropic表示,该模型在两小时的限制时间内,表现优于所有参加过考试的人类候选人。 该测试侧重于时间压力下的技术判断,不衡量社交或直觉技能。 即便如此,该结果也引发了关于 AI 可能如何重塑软件工程师工作的更广泛问题。 Anthropic 还提到了 SWE-bench Verified 基准测试,该基准测试评估模型在真实软件开发任务中的表现。 在这些结果中,Claude Opus 4.5略微领先于 谷歌 的 Gemini 3 Pro 和 OpenAI 以编码为重点的 Codex 5.1 Max。

新功能与应用整合

Opus 4.5 引入了一个名为 Effort 参数的 API 变量,开发人员可以借此控制模型在任务中投入多少计算资源。 此外,Claude Code也通过Opus 4.5获得了两项重大更新。 增强的 Plan Mode 旨在通过提示 Opus 4.5 提出澄清问题,然后在进行任何代码变更之前生成可编辑的 plan.md 文件,从而产生更准确的计划。

Claude Code 现在也可在桌面应用程序中使用,允许用户并行运行本地和远程会话,例如,同时修复错误、在 GitHub 上进行研究和更新文件。 Claude 应用程序的用户还应体验到更流畅的长对话。 该模型现在可以在需要时总结较旧的交换部分,而不是达到硬性上下文限制。 Anthropic 表示,Claude for Chrome 插件(可让 Claude 管理多个选项卡中的任务)现已向所有 Max 用户开放。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表回复

登录后才能评论