Google 正式发布第七代 TPU「Ironwood」：开启 AI 推论时代的效能革命

过去几年，科技巨头与研究机构对于 AI 人工智能的重点集中于模型训练与架构创新：从 Transformer 的诞生到多模态生成式模型的崛起，AI 的突破主要发生在训练与算法层面。然而，如今的焦点逐渐转向「推论」：如何让模型以更低延迟、更高效率的方式服务数亿用户。谷歌指出，这场转变标志着「AI 推论时代（Age of Inference）」的到来。随着代理式工作流程（agentic workflows）的兴起与通用运算需求激增，现代 AI 系统必须能灵活协调加速运算与一般计算资源。这种趋势促使谷歌重新构思芯片设计，将软件与硬件深度整合，打造出专为推论与训练而生的新世代运算平台 Ironwood TPU 以及全新虚拟机 Axion。

Ironwood 登场：谷歌第七代 TPU 的技术飞跃

谷歌在 2025 年正式揭晓其第七代 TPU：Ironwood，这款芯片被视为公司 AI 硬件发展的里程碑。 Ironwood 的设计理念，是在极端负载下同时提供高效能训练与低延迟推论的能力，满足当前大型模型与生成式 AI 的庞大运算需求。

根据官方资料，Ironwood 相较于前代芯片展现了惊人的跨代效能提升：

对比TPU v5p：峰值效能提升10倍。
对比TPU v6e（Trillium）：在训练与推论工作负载上效能提升超过4倍。

这使得Ironwood成为谷歌迄今最强大、最节能的客制化芯片，能够支撑从大型语言模型（LLMs）训练到实时生成式推论等多种工作负载。

Anthropic、Lightricks、Essential AI 等巨头抢先采用

Ironwood 一经发布，便迅速吸引多家领先 AI 企业投入部署与测试。

Anthropic 是最早导入 Ironwood 的合作伙伴之一。该公司运算主管 James Bradbury 表示：「我们的Claude 模型在服务数百万用户的过程中，对推论效能与训练可扩展性的需求与日俱增。 Ironwood 的高性价比让我们能更高效地扩展运算资源，同时维持用户所期待的速度与可靠性。」Anthropic 预计将使用多达 100 万颗 TPU 来支撑其模型服务。

Lightricks 研究团队则利用 Ironwood 强大的芯片间互连网络（Interchip Interconnect， ICI）训练多模态生成模型 LTX-2，显著提升效率。该公司总监Yoav HaCohen强调：「Ironwood 将让我们能以更低成本产生更高拟真度的影像与视频内容，持续推动开放式创意的边界。」

此外，Essential AI的基础架构负责人Philip Monk也指出：「Ironwood 的高效扩展性与软件整合度，使我们能专注于 AI 模型的创新，而非系统运维的瓶颈。」

Ironwood 的核心：AI Hypercomputer 的运算中枢

Ironwood 不只是单一芯片，它是 谷歌 AI Hypercomputer 的中枢：一个融合运算、网络、储存与软件的整合式超级运算系统。

根据IDC报告，导入AI Hypercomputer的企业可在三年内达成353%投资报酬率、降低28%IT成本，并提升55%IT团队效率。

Ironwood TPU 在架构上采用超高密度链接设计：

单一Superpod可容纳9,216颗TPU芯片。
传输带宽高达 9.6 TB/s。
共享高带宽记忆体（HBM） 高达 1.77 PB。

如此庞大的互联网络，使数千颗芯片能同步协作，几乎消除数据传输瓶颈。为确保稳定性，谷歌导入光学电路交换（Optical Circuit Switching， OCS）技术，能在出现中断时实时重组网络，确保服务不中断。若需求扩增，Ironwood可进一步通过Jupiter数据中心网络形成数十万颗TPU的丛集，构筑云端级超级计算机规模。

Ironwood 的硬件效能，通过谷歌的软件生态进一步被放大。谷歌在 TPU 平台上导入多项创新：

GKE Cluster Director：提供拓扑感知与智能调度功能，让TPU集群能动态分配资源并维持高弹性。
MaxText开源框架：支持最新的监督式微调（SFT）与生成式强化学习（GRPO）技术。
vLLM on TPU 支持：让开发者可无缝切换 GPU 与 TPU，灵活配置推论工作负载。
GKE Inference Gateway：优化推论延迟，将首字生成时间（TTFT）缩短高达96%，并降低约30%成本。

通过这些软件层的强化，谷歌成功让 Ironwood 在训练、微调与推论的各阶段皆达成最高效率，形成真正的「系统级智能运算平台」。

Axion 登场：Arm 架构 CPU 引领通用运算革新

在Ironwood主导的AI加速之外，谷歌同步推出基于Arm Neoverse®架构的Axion系列CPU，重新定义云端通用运算的效率与灵活性。

最新发布的两款产品包括：

Axion N4A（预览版）：专为微服务、容器化应用、开源数据库与数据分析而设计，与同级x86 VM相比具备高达 2 倍性价比。
Axion C4A metal（预览版）：谷歌首款 Arm 架构裸机执行个体，适用于 Android 开发、汽车系统或复杂模拟环境。

这两款产品与现有的C4A一同构成完整的Axion产品组合，让企业能依据工作负载需求，灵活选择最佳运算方案。
谷歌正式发布第七代 TPU「Ironwood」：开启 AI 推论时代的效能革命 -

Axion 的实际成效：Vimeo、ZoomInfo、Rise 的成功案例

Vimeo 在使用 Axion N4A 执行视频转档测试时，效能提升 30%，无需更改现有架构即可提升单位经济效益。

ZoomInfo的数据处理平台在N4A上运行后，性价比提升60%，大幅加速客户数据分析与洞察生成。

Rise 则通过迁移至 Axion C4A，运算成本下降 20%，同时维持低延迟与高稳定性。该公司正在测试N4A系列以支持高弹性API服务，并观察到CPU使用量减少15%，进一步降低云支出。

Ironwood × Axion：AI 与通用运算的完美协奏

谷歌的战略清晰明确：以 Ironwood TPU 负责 AI 模型训练与推论的「智能核心」，以 Axion CPU 承载日常运算与应用层任务，两者共同构成 AI 时代的双引擎架构。

这种垂直集成的设计让企业能同时获得极致性能与灵活性，无论是在训练大型语言模型、部署生成式应用，还是进行数据分析与网页服务，谷歌 Cloud 的运算平台都能提供最佳组合。