谷歌推出性能提升 4 倍的 AI 芯片,斩获 Anthropic 数十亿美元大单

谷歌推出性能提升 4 倍的 AI 芯片,斩获 Anthropic 数十亿美元大单

谷歌云正式发布其迄今最强大的人工智能基础设施,核心包含第七代张量处理单元(TPU)“Ironwood” 与扩展的 Arm 架构 Axion 处理器系列。这一发布标志着行业正从 “模型训练” 向 “面向数十亿用户的模型推理服务” 转型,而谷歌通过定制化芯片与垂直整合策略,试图在 AI 基础设施竞争中打破英伟达 GPU 的主导地位。更引人瞩目的是,AI 安全公司 Anthropic(Claude 系列模型开发商)宣布计划接入多达 100 万块 Ironwood TPU 芯片,这份价值数十亿美元的合作,成为迄今已知规模最大的 AI 基础设施协议之一,为谷歌定制芯片战略注入强力背书。

从行业背景来看,谷歌此次布局紧扣 “推理时代” 的核心需求。随着 Gemini、Claude 等前沿模型逐渐成熟,企业资源正从耗时耗力的模型训练,转向支撑每日数百万甚至数十亿次请求的推理服务。谷歌云 AI 与基础设施副总裁兼总经理阿明・瓦赫达特(Amin Vahdat)指出,推理场景对基础设施的要求远超训练 —— 训练可容忍批量处理与较长耗时,而推理必须保证极低延迟、超高吞吐量与极致可靠性。例如,响应时间超过 30 秒的聊天机器人或频繁超时的代码助手,即便模型能力再强也无法投入实用;尤其在智能体(Agentic)工作流中,AI 需自主执行任务而非仅响应指令,更需要专用加速器与通用计算的紧密协同,这正是谷歌定制芯片的核心发力点。

Ironwood TPU 的突破不仅体现在性能提升,更源于系统级的协同设计。相较于第六代 TPU,Ironwood 在训练与推理性能上均实现 4 倍以上提升,这并非单纯依赖晶体管数量增加,而是通过架构创新实现。其最显著的特点是规模化设计:单个 “Ironwood Pod”(由多芯片组成的超级计算机单元)可通过谷歌自研的芯片间互联(Inter-Chip Interconnect)网络,连接多达 9216 块芯片,互联带宽达 9.6 太比特 / 秒 —— 这一速度相当于不到 2 秒即可下载整个美国国会图书馆的数字资源。配套的高带宽内存(HBM)总量达 1.77 拍字节,足以同时供数千个处理器高速访问,相当于 4 万部高清蓝光电影的容量,谷歌称其 FP8 精度下的算力达 118 exaFLOPS,远超同类竞品。

为应对大规模集群的可靠性挑战,Ironwood 引入光电路交换(Optical Circuit Switching)技术,构建动态可重构的互联架构。当单个组件故障或需要维护时,系统可在毫秒内自动 reroute 数据流量,确保工作负载无感知续跑。这一设计源自谷歌五代 TPU 的部署经验,其液冷系统自 2020 年以来始终保持 99.999% 的可用性,年均 downtime 不足 6 分钟,完全满足企业级服务的严苛要求。

Anthropic 的合作堪称谷歌定制芯片战略的 “里程碑式验证”。这家公司计划接入的 100 万块 TPU 芯片,规模远超行业内常见的万级或五万级加速器集群,配套基础设施、网络与能耗投入预计形成一份价值数十亿美元的多年期合同。Anthropic 首席财务官克里希纳・拉奥(Krishna Rao)表示,双方长期合作的基础在于 TPU 的 “性价比与效率优势”,以及 Anthropic 在 TPU 上训练与部署模型的成熟经验。据披露,Anthropic 将在 2026 年获得 “超过 1 吉瓦” 的算力容量 —— 这一电力规模足以支撑一座小型城市,将用于满足 Claude 模型指数级增长的用户需求,从财富 500 强企业到 AI 原生初创公司均依赖其提供核心服务。Anthropic 计算部门负责人詹姆斯・布拉德伯里(James Bradbury)特别强调,Ironwood 在推理性能与训练扩展性上的双重提升,能帮助团队在保证用户体验的同时高效扩容。

与 Ironwood 互补的是谷歌 Axion 处理器家族的扩展。作为定制 Arm 架构 CPU,Axion 聚焦 AI 应用的通用支撑工作负载 —— 无需专用加速器的微服务、容器化应用、开源数据库、数据分析与 Web 服务等。此次推出的 N4A 实例在预览阶段即展现出显著优势,谷歌称其性价比较当前主流 x86 虚拟机提升 2 倍;而首次亮相的 C4A 裸金属实例,则为 Android 开发、汽车系统与有严格授权要求的软件,提供专属物理服务器支持。Axion 的定位凸显了谷歌的基础设施逻辑:TPU 负责 AI 模型的密集计算,Axion 则处理数据摄入、预处理、应用逻辑与 API 服务等 “辅助但关键” 的任务,二者协同构成完整的 AI 应用栈。早期客户反馈印证了这一策略的价值:Vimeo 在 N4A 实例上测试核心转码工作负载,性能提升 30%;ZoomInfo 的数据处理管道运行于 Java 服务时,性价比提升 60%,充分体现通用计算优化对 AI 效率的间接增益。

软件生态的完善则让硬件性能真正转化为开发者效率。谷歌将 Ironwood 与 Axion 整合进 “AI 超算(AI Hypercomputer)” 体系,该系统融合计算、网络、存储与软件,据 2025 年 10 月 IDC 研究,使用该系统的客户三年平均 ROI 达 353%,IT 成本降低 28%,团队效率提升 55%。具体优化包括:谷歌 Kubernetes 引擎(GKE)新增 TPU 集群的高级维护与拓扑感知能力,实现智能调度与高弹性部署;开源框架 MaxText 支持监督微调(SFT)与生成式强化策略优化(GRPO)等先进训练技术;而推理网关(Inference Gateway)通过前缀缓存感知路由等技术,将首 token 响应延迟降低 96%,服务成本减少 30%—— 例如在对话 AI 中,网关可将共享上下文的请求路由至同一服务器,避免冗余计算。

值得关注的是,谷歌在基础设施物理层面的创新。为支撑 AI 时代的超高功率需求,谷歌推出 ±400 伏直流供电系统,单机架功率可达 1 兆瓦,较传统部署提升 10 倍。其工程师在 2025 年 4 月的博客中预测,2030 年前机器学习机架功率将突破 500 千瓦。目前,谷歌正与 Meta、微软合作推进高压直流配电的接口标准化,并选择 400 伏规格以复用电动汽车供应链,降低成本并提升规模化能力。冷却方面,谷歌第五代冷却分配单元将贡献给开放计算项目(OCP),其液冷系统已在 7 年间部署于 2000 多个 TPU Pod,水的散热效率是空气的 4000 倍,足以应对单芯片超 1000 瓦的散热需求。

这一系列动作背后,是谷歌对 AI 芯片市场格局的挑战。当前英伟达凭借 80%-95% 的市场份额主导 AI 加速器领域,但云厂商正通过定制芯片寻求差异化。亚马逊有 Graviton CPU 与 Inferentia/Trainium 加速器,微软开发 Cobalt 处理器并传闻布局 AI 芯片,而谷歌的 TPU、Axion 组合构成了主流云厂商中最完整的定制芯片 portfolio。尽管定制芯片需数十亿前期投入,软件生态落后于英伟达 CUDA 平台,且面临模型架构快速迭代的风险,但谷歌坚信垂直整合的长期价值 —— 正如其十年前开发首款 TPU,间接推动了 Transformer 架构的诞生。

除 Anthropic 外,早期客户已展现出积极反馈。开发创意 AI 工具的 Lightricks 研究总监约夫・哈科恩(Yoav HaCohen)表示,Ironwood 的测试表现让团队有信心为全球数百万用户打造 “更细腻、精准、高保真的图像与视频生成工具”。不过行业仍存在疑问:当前数百亿美元的基础设施投入能否持续?定制芯片是否真能在经济上优于英伟达 GPU?模型架构演进是否会让现有芯片过时?

对谷歌而言,这一策略延续了其数十年的技术逻辑:通过定制基础设施实现通用硬件无法支撑的应用,再将其开放给无需承担巨额投入的客户。随着 AI 从实验室走向服务数十亿用户的生产场景,基础设施层 —— 包括芯片、软件、网络、供电与冷却 —— 正与模型本身同等重要。而 Anthropic 100 万块芯片的订单表明,谷歌针对推理时代的定制芯片赌注,或许正赶上需求爆发的关键拐点。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-tui-chu-xing-neng-ti-sheng-4-bei-de-ai-xin-pian-zhan

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年11月8日
Next 2025年11月8日

相关推荐

发表回复

Please Login to Comment