过去几年,科技巨头与研究机构对于 AI 人工智能的重点集中于模型训练与架构创新:从 Transformer 的诞生到多模态生成式模型的崛起,AI 的突破主要发生在训练与算法层面。 然而,如今的焦点逐渐转向「推论」:如何让模型以更低延迟、更高效率的方式服务数亿用户。 谷歌 指出,这场转变标志着「AI 推论时代(Age of Inference)」的到来。 随着代理式工作流程(agentic workflows)的兴起与通用运算需求激增,现代 AI 系统必须能灵活协调加速运算与一般计算资源。 这种趋势促使 谷歌 重新构思芯片设计,将软件与硬件深度整合,打造出专为推论与训练而生的新世代运算平台 Ironwood TPU 以及全新虚拟机 Axion。
Ironwood 登场:谷歌 第七代 TPU 的技术飞跃
目录
谷歌 在 2025 年正式揭晓其第七代 TPU:Ironwood,这款芯片被视为公司 AI 硬件发展的里程碑。 Ironwood 的设计理念,是在极端负载下同时提供高效能训练与低延迟推论的能力,满足当前大型模型与生成式 AI 的庞大运算需求。
根据官方资料,Ironwood 相较于前代芯片展现了惊人的跨代效能提升:
- 对比TPU v5p:峰值效能提升10倍。
- 对比TPU v6e(Trillium):在训练与推论工作负载上效能提升超过4倍。
这使得Ironwood成为谷歌迄今最强大、最节能的客制化芯片,能够支撑从大型语言模型(LLMs)训练到实时生成式推论等多种工作负载。
Anthropic、Lightricks、Essential AI 等巨头抢先采用
Ironwood 一经发布,便迅速吸引多家领先 AI 企业投入部署与测试。
Anthropic 是最早导入 Ironwood 的合作伙伴之一。 该公司运算主管 James Bradbury 表示:「我们的Claude 模型在服务数百万用户的过程中,对推论效能与训练可扩展性的需求与日俱增。 Ironwood 的高性价比让我们能更高效地扩展运算资源,同时维持用户所期待的速度与可靠性。」Anthropic 预计将使用多达 100 万颗 TPU 来支撑其模型服务。
Lightricks 研究团队则利用 Ironwood 强大的芯片间互连网络(Interchip Interconnect, ICI)训练多模态生成模型 LTX-2,显著提升效率。 该公司总监Yoav HaCohen强调:「Ironwood 将让我们能以更低成本产生更高拟真度的影像与视频内容,持续推动开放式创意的边界。」
此外,Essential AI的基础架构负责人Philip Monk也指出:「Ironwood 的高效扩展性与软件整合度,使我们能专注于 AI 模型的创新,而非系统运维的瓶颈。」
Ironwood 的核心:AI Hypercomputer 的运算中枢
Ironwood 不只是单一芯片,它是 谷歌 AI Hypercomputer 的中枢:一个融合运算、网络、储存与软件的整合式超级运算系统。
根据IDC报告,导入AI Hypercomputer的企业可在三年内达成353%投资报酬率、降低28%IT成本,并提升55%IT团队效率。
Ironwood TPU 在架构上采用超高密度链接设计:
- 单一Superpod可容纳9,216颗TPU芯片。
- 传输带宽高达 9.6 TB/s。
- 共享高带宽记忆体(HBM) 高达 1.77 PB。
如此庞大的互联网络,使数千颗芯片能同步协作,几乎消除数据传输瓶颈。 为确保稳定性,谷歌 导入光学电路交换(Optical Circuit Switching, OCS)技术,能在出现中断时实时重组网络,确保服务不中断。 若需求扩增,Ironwood可进一步通过Jupiter数据中心网络形成数十万颗TPU的丛集,构筑云端级超级计算机规模。
Ironwood 的硬件效能,通过 谷歌 的软件生态进一步被放大。 谷歌 在 TPU 平台上导入多项创新:
- GKE Cluster Director:提供拓扑感知与智能调度功能,让TPU集群能动态分配资源并维持高弹性。
- MaxText开源框架:支持最新的监督式微调(SFT)与生成式强化学习(GRPO)技术。
- vLLM on TPU 支持:让开发者可无缝切换 GPU 与 TPU,灵活配置推论工作负载。
- GKE Inference Gateway:优化推论延迟,将首字生成时间(TTFT)缩短高达96%,并降低约30%成本。
通过这些软件层的强化,谷歌 成功让 Ironwood 在训练、微调与推论的各阶段皆达成最高效率,形成真正的「系统级智能运算平台」。
Axion 登场:Arm 架构 CPU 引领通用运算革新
在Ironwood主导的AI加速之外,谷歌同步推出基于Arm Neoverse®架构的Axion系列CPU,重新定义云端通用运算的效率与灵活性。
最新发布的两款产品包括:
- Axion N4A(预览版):专为微服务、容器化应用、开源数据库与数据分析而设计,与同级x86 VM相比具备高达 2 倍性价比。
- Axion C4A metal(预览版):谷歌 首款 Arm 架构裸机执行个体,适用于 Android 开发、汽车系统或复杂模拟环境。
这两款产品与现有的C4A一同构成完整的Axion产品组合,让企业能依据工作负载需求,灵活选择最佳运算方案。
Axion 的实际成效:Vimeo、ZoomInfo、Rise 的成功案例
Vimeo 在使用 Axion N4A 执行视频转档测试时,效能提升 30%,无需更改现有架构即可提升单位经济效益。
ZoomInfo的数据处理平台在N4A上运行后,性价比提升60%,大幅加速客户数据分析与洞察生成。
Rise 则通过迁移至 Axion C4A,运算成本下降 20%,同时维持低延迟与高稳定性。 该公司正在测试N4A系列以支持高弹性API服务,并观察到CPU使用量减少15%,进一步降低云支出。
Ironwood × Axion:AI 与通用运算的完美协奏
谷歌 的战略清晰明确:以 Ironwood TPU 负责 AI 模型训练与推论的「智能核心」,以 Axion CPU 承载日常运算与应用层任务,两者共同构成 AI 时代的双引擎架构。
这种垂直集成的设计让企业能同时获得极致性能与灵活性,无论是在训练大型语言模型、部署生成式应用,还是进行数据分析与网页服务,谷歌 Cloud 的运算平台都能提供最佳组合。
微信扫一扫
