Google 正式发布第七代 TPU「Ironwood」:开启 AI 推论时代的效能革命

过去几年,科技巨头与研究机构对于 AI 人工智能的重点集中于模型训练与架构创新:从 Transformer 的诞生到多模态生成式模型的崛起,AI 的突破主要发生在训练与算法层面。 然而,如今的焦点逐渐转向「推论」:如何让模型以更低延迟、更高效率的方式服务数亿用户。 谷歌 指出,这场转变标志着「AI 推论时代(Age of Inference)」的到来。 随着代理式工作流程(agentic workflows)的兴起与通用运算需求激增,现代 AI 系统必须能灵活协调加速运算与一般计算资源。 这种趋势促使 谷歌 重新构思芯片设计,将软件与硬件深度整合,打造出专为推论与训练而生的新世代运算平台 Ironwood TPU 以及全新虚拟机 Axion。

Ironwood 登场:谷歌 第七代 TPU 的技术飞跃

谷歌 在 2025 年正式揭晓其第七代 TPU:Ironwood,这款芯片被视为公司 AI 硬件发展的里程碑。 Ironwood 的设计理念,是在极端负载下同时提供高效能训练与低延迟推论的能力,满足当前大型模型与生成式 AI 的庞大运算需求。

根据官方资料,Ironwood 相较于前代芯片展现了惊人的跨代效能提升:

  • 对比TPU v5p:峰值效能提升10倍
  • 对比TPU v6e(Trillium):在训练与推论工作负载上效能提升超过4倍

这使得Ironwood成为谷歌迄今最强大、最节能的客制化芯片,能够支撑从大型语言模型(LLMs)训练到实时生成式推论等多种工作负载。

Anthropic、Lightricks、Essential AI 等巨头抢先采用

Ironwood 一经发布,便迅速吸引多家领先 AI 企业投入部署与测试。

Anthropic 是最早导入 Ironwood 的合作伙伴之一。 该公司运算主管 James Bradbury 表示:「我们的Claude 模型在服务数百万用户的过程中,对推论效能与训练可扩展性的需求与日俱增。 Ironwood 的高性价比让我们能更高效地扩展运算资源,同时维持用户所期待的速度与可靠性。」Anthropic 预计将使用多达 100 万颗 TPU 来支撑其模型服务。

Lightricks 研究团队则利用 Ironwood 强大的芯片间互连网络(Interchip Interconnect, ICI)训练多模态生成模型 LTX-2,显著提升效率。 该公司总监Yoav HaCohen强调:「Ironwood 将让我们能以更低成本产生更高拟真度的影像与视频内容,持续推动开放式创意的边界。」

此外,Essential AI的基础架构负责人Philip Monk也指出:「Ironwood 的高效扩展性与软件整合度,使我们能专注于 AI 模型的创新,而非系统运维的瓶颈。」

Ironwood 的核心:AI Hypercomputer 的运算中枢

Ironwood 不只是单一芯片,它是 谷歌 AI Hypercomputer 的中枢:一个融合运算、网络、储存与软件的整合式超级运算系统。

根据IDC报告,导入AI Hypercomputer的企业可在三年内达成353%投资报酬率降低28%IT成本,并提升55%IT团队效率

Ironwood TPU 在架构上采用超高密度链接设计:

  • 单一Superpod可容纳9,216颗TPU芯片
  • 传输带宽高达 9.6 TB/s
  • 共享高带宽记忆体(HBM) 高达 1.77 PB

如此庞大的互联网络,使数千颗芯片能同步协作,几乎消除数据传输瓶颈。 为确保稳定性,谷歌 导入光学电路交换(Optical Circuit Switching, OCS)技术,能在出现中断时实时重组网络,确保服务不中断。 若需求扩增,Ironwood可进一步通过Jupiter数据中心网络形成数十万颗TPU的丛集,构筑云端级超级计算机规模。

Ironwood 的硬件效能,通过 谷歌 的软件生态进一步被放大。 谷歌 在 TPU 平台上导入多项创新:

  • GKE Cluster Director:提供拓扑感知与智能调度功能,让TPU集群能动态分配资源并维持高弹性。
  • MaxText开源框架:支持最新的监督式微调(SFT)与生成式强化学习(GRPO)技术。
  • vLLM on TPU 支持:让开发者可无缝切换 GPU 与 TPU,灵活配置推论工作负载。
  • GKE Inference Gateway:优化推论延迟,将首字生成时间(TTFT)缩短高达96%,并降低约30%成本。

通过这些软件层的强化,谷歌 成功让 Ironwood 在训练、微调与推论的各阶段皆达成最高效率,形成真正的「系统级智能运算平台」。

Axion 登场:Arm 架构 CPU 引领通用运算革新

在Ironwood主导的AI加速之外,谷歌同步推出基于Arm Neoverse®架构Axion系列CPU,重新定义云端通用运算的效率与灵活性。

最新发布的两款产品包括:

  1. Axion N4A(预览版):专为微服务、容器化应用、开源数据库与数据分析而设计,与同级x86 VM相比具备高达 2 倍性价比
  2. Axion C4A metal(预览版):谷歌 首款 Arm 架构裸机执行个体,适用于 Android 开发、汽车系统或复杂模拟环境。

这两款产品与现有的C4A一同构成完整的Axion产品组合,让企业能依据工作负载需求,灵活选择最佳运算方案。
谷歌 正式发布第七代 TPU「Ironwood」:开启 AI 推论时代的效能革命 -

Axion 的实际成效:Vimeo、ZoomInfo、Rise 的成功案例

Vimeo 在使用 Axion N4A 执行视频转档测试时,效能提升 30%,无需更改现有架构即可提升单位经济效益。

ZoomInfo的数据处理平台在N4A上运行后,性价比提升60%,大幅加速客户数据分析与洞察生成。

Rise 则通过迁移至 Axion C4A,运算成本下降 20%,同时维持低延迟与高稳定性。 该公司正在测试N4A系列以支持高弹性API服务,并观察到CPU使用量减少15%,进一步降低云支出。

Ironwood × Axion:AI 与通用运算的完美协奏

谷歌 的战略清晰明确:以 Ironwood TPU 负责 AI 模型训练与推论的「智能核心」,以 Axion CPU 承载日常运算与应用层任务,两者共同构成 AI 时代的双引擎架构。

这种垂直集成的设计让企业能同时获得极致性能与灵活性,无论是在训练大型语言模型、部署生成式应用,还是进行数据分析与网页服务,谷歌 Cloud 的运算平台都能提供最佳组合。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表回复

登录后才能评论