
2025 年 10 月 27 日,谷歌云正式发布全新企业级 AI 训练服务 Vertex AI Training,核心通过提供托管 Slurm 环境、全栈数据科学工具及多类型芯片支持,助力企业从零开始训练自定义大模型或优化开源模型,直接对标 CoreWeave、Lambda Labs 等专业算力服务商,以及 AWS、微软 Azure 等云巨头,旨在争夺对 “大规模模型训练” 有强需求的企业客户,进一步巩固其在 AI 基础设施领域的竞争力。
一、服务核心定位:聚焦 “大规模、自定义”AI 训练,区别于基础微调
谷歌云 Vertex AI Training 的核心目标,是解决企业在 “从零构建模型” 或 “深度定制模型” 时面临的算力调度、任务管理与成本控制难题。与谷歌云此前提供的 “Gemini 模型微调”“RAG(检索增强生成)优化” 等轻量级定制服务不同,该服务专为超大规模训练场景设计 —— 支持跨越数百甚至数千颗芯片的长期训练任务,例如从随机权重开始训练百亿参数级模型,而非简单向现有模型补充数据或调整局部参数。
谷歌云产品管理高级总监 Jaime de Guerre 明确表示,该服务不面向 “仅需扩展上下文、使用 RAG 增强” 的轻量需求,而是聚焦三类核心客户:一是 AI 初创公司,需构建专属模型形成产品差异化;二是跨国组织或区域机构,为特定语言、文化定制模型;三是大型企业,将自定义模型嵌入内部核心流程(如金融领域的风险评估、制造领域的质检分析)。早期客户已包括新加坡 AI 联盟(利用该服务训练 270 亿参数的 SEA-LION v4 模型)与 Salesforce AI 研究团队,验证了其在大规模训练场景的实用性。
二、核心竞争力:托管 Slurm + 多芯片支持 + Gemini 训练经验,破解训练痛点
Vertex AI Training 的差异化优势,集中体现在对 “企业级训练痛点” 的针对性解决,核心包括三大维度:
1. 托管 Slurm 环境:解决算力调度与任务容错难题
传统大规模模型训练中,企业常面临 “GPU 资源争夺激烈”“任务中断后需手动重启”“调度效率低” 等问题。谷歌云通过托管 Slurm(高性能计算领域主流的任务调度系统),实现三大关键优化:
- 智能任务调度:自动分配 GPU、TPU 等算力资源,避免多团队争抢导致的效率损耗,尤其适配 “跨芯片集群训练” 场景,支持数千颗芯片协同工作;
- 自动故障恢复:训练过程中若出现硬件故障或任务放缓,系统会基于自动 checkpoint(检查点)技术,在几秒内重启任务,最大限度减少 downtime,避免 “训练数天因故障前功尽弃” 的风险;
- 简化运维成本:企业无需自行部署、维护 Slurm 软件或编写调度脚本,谷歌云负责底层环境更新与故障修复,让技术团队聚焦模型算法而非基础设施管理。
相比之下,CoreWeave 等服务商虽提供按需 GPU 租赁(如英伟达 H100),但需企业自行解决训练软件部署、任务调度与故障处理,增加了技术门槛;而 AWS、Azure 的通用云服务,在 “大规模 AI 训练专项优化” 上缺乏针对性,调度效率与容错能力较弱。
2. 多芯片兼容 + 全栈工具链:适配多样化训练需求
Vertex AI Training 打破 “单一芯片依赖”,支持谷歌自研 TPU(如 Trillium TPU)、英伟达 GPU(如 H200)及其他适配大规模训练的芯片,企业可根据模型类型(如 MoE 架构、多模态模型)与成本预算灵活选择。同时,服务整合谷歌云全栈工具链:
- 数据处理工具:对接 BigQuery、Cloud Storage 等数据存储服务,支持海量训练数据的清洗、标注与导入;
- 模型监控与管理:提供实时训练指标监控(如 loss 值变化、算力利用率)、模型版本控制与迭代记录,便于团队追溯与优化;
- 框架兼容性:原生支持 PyTorch、TensorFlow、JAX 等主流深度学习框架,无需修改代码即可迁移现有训练任务,降低迁移成本。
这一特性尤其契合企业 “定制化模型” 需求 —— 例如训练金融领域小模型时,可选用成本较低的 TPU 集群;训练复杂多模态模型时,可切换至算力更强的英伟达 GPU,兼顾性能与经济性。
3. 复用 Gemini 训练经验:注入企业级技术沉淀
谷歌云在训练 Gemini 系列大模型过程中积累的技术(如分布式训练优化、能源效率提升),已深度融入 Vertex AI Training。例如,通过 “芯片间高速互连技术”(如 Jupiter 数据中心网络),实现多芯片集群的低延迟通信,提升大规模模型训练速度;同时借鉴 Gemini 的 “能源优化策略”,在保证性能的前提下降低算力能耗,减少企业长期训练的电力成本。这种 “实战经验复用”,是 CoreWeave 等新兴算力服务商与 AWS 等通用云厂商难以复制的优势。
三、市场竞争格局:直面 CoreWeave 与云巨头,争夺 “高价值训练客户”
Vertex AI Training 的推出,进一步激化了 AI 基础设施领域的竞争,主要对标两类玩家:
1. 对标 CoreWeave、Lambda Labs:争夺 “纯算力需求 + 高定制化客户”
CoreWeave 凭借 “按需 GPU 租赁” 模式(如英伟达 H100 按小时计费),在 AI 初创公司中占据一定市场,但存在两大短板:一是重资产模式导致亏损扩大(2024 年净亏损 8.63 亿美元,债务达 129 亿美元),二是缺乏训练全流程服务,需企业自行解决软件与运维。而 Vertex AI Training 以 “托管服务 + 全栈工具” 为卖点,吸引 “不愿投入大量运维资源、追求稳定训练体验” 的企业客户,例如新加坡 AI 联盟选择其训练 SEA-LION v4 模型,正是看重其 “低运维成本 + 高容错能力”。
2. 对标 AWS、Azure:强化 “AI 训练专项优势”
AWS、微软 Azure 虽为云市场巨头,但 AI 训练服务多为 “通用云服务的附加功能”,缺乏针对 “大规模模型从零训练” 的专项优化。例如,AWS 的 Trainium 芯片虽主打 AI 训练,但在调度效率、故障恢复上不及谷歌云的托管 Slurm;Azure 的 GPU 集群服务,在 “多芯片协同” 与 “框架深度适配” 上仍有差距。Vertex AI Training 通过 “专项优化 + Gemini 经验复用”,试图在 “企业级 AI 训练” 这一垂直领域实现突破,争夺金融、科技等行业的高价值客户(如 Salesforce AI)。
四、企业选择考量:并非 “一刀切”,需匹配自身需求
尽管 Vertex AI Training 优势显著,但并非所有企业都适用。谷歌云明确指出,服务更适合 “计划大规模从零训练模型” 的客户,而以下场景则需谨慎选择:
- 轻量级定制需求:若仅需通过 LoRA(低秩适应)微调现有开源模型,或通过 RAG 扩展上下文,无需使用该服务,谷歌云的基础 Gemini 微调工具已能满足需求,成本更低;
- 中小规模企业:从零训练模型需投入大量算力(单项目成本可能达数百万美元),且需专业算法团队支撑,中小企若无明确 “模型差异化” 需求,选择现有成熟模型微调更具性价比;
- 短期项目需求:若训练任务仅持续数小时或数天,CoreWeave 的按需 GPU 租赁可能更灵活,无需长期绑定谷歌云服务。
五、行业影响:推动 AI 训练 “专业化 + 企业化”,加速定制模型落地
Vertex AI Training 的发布,反映出 AI 基础设施领域的两大趋势:一是 “通用云服务” 向 “专项 AI 服务” 转型,云厂商不再满足于提供通用算力,而是针对 “训练、推理、微调” 等细分场景推出定制化解决方案;二是企业对 “自定义模型” 的需求上升,尤其金融、医疗等强监管行业,需通过专属模型保障数据安全与业务适配性,而 Vertex AI Training 这类服务,正为其降低 “从零训练” 的技术与运维门槛。
长期来看,该服务或将推动更多企业摆脱 “依赖通用大模型” 的现状,转向 “定制化模型构建”,进一步丰富 AI 应用生态。同时,其竞争压力也将倒逼 CoreWeave 提升服务完整性(如增加托管调度功能)、AWS/Azure 强化 AI 训练专项优化,最终惠及企业客户,形成 “技术迭代 + 成本下降” 的良性循环。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/gu-ge-yun-tui-chu-tuo-guan-slurm-de-vertex-ai-training-miao