谷歌云推出托管 Slurm 的 Vertex AI Training：瞄准企业级 AI 训练，直面 CoreWeave 与 AWS 竞争

王浩然 • 2025年10月28日下午2:00 • AI前沿 • 237 views

2025 年 10 月 27 日，谷歌云正式发布全新企业级 AI 训练服务 Vertex AI Training，核心通过提供托管 Slurm 环境、全栈数据科学工具及多类型芯片支持，助力企业从零开始训练自定义大模型或优化开源模型，直接对标 CoreWeave、Lambda Labs 等专业算力服务商，以及 AWS、微软 Azure 等云巨头，旨在争夺对 “大规模模型训练” 有强需求的企业客户，进一步巩固其在 AI 基础设施领域的竞争力。

一、服务核心定位：聚焦 “大规模、自定义”AI 训练，区别于基础微调

谷歌云 Vertex AI Training 的核心目标，是解决企业在 “从零构建模型” 或 “深度定制模型” 时面临的算力调度、任务管理与成本控制难题。与谷歌云此前提供的 “Gemini 模型微调”“RAG（检索增强生成）优化” 等轻量级定制服务不同，该服务专为超大规模训练场景设计 —— 支持跨越数百甚至数千颗芯片的长期训练任务，例如从随机权重开始训练百亿参数级模型，而非简单向现有模型补充数据或调整局部参数。

谷歌云产品管理高级总监 Jaime de Guerre 明确表示，该服务不面向 “仅需扩展上下文、使用 RAG 增强” 的轻量需求，而是聚焦三类核心客户：一是 AI 初创公司，需构建专属模型形成产品差异化；二是跨国组织或区域机构，为特定语言、文化定制模型；三是大型企业，将自定义模型嵌入内部核心流程（如金融领域的风险评估、制造领域的质检分析）。早期客户已包括新加坡 AI 联盟（利用该服务训练 270 亿参数的 SEA-LION v4 模型）与 Salesforce AI 研究团队，验证了其在大规模训练场景的实用性。

二、核心竞争力：托管 Slurm + 多芯片支持 + Gemini 训练经验，破解训练痛点

Vertex AI Training 的差异化优势，集中体现在对 “企业级训练痛点” 的针对性解决，核心包括三大维度：

1. 托管 Slurm 环境：解决算力调度与任务容错难题

传统大规模模型训练中，企业常面临 “GPU 资源争夺激烈”“任务中断后需手动重启”“调度效率低” 等问题。谷歌云通过托管 Slurm（高性能计算领域主流的任务调度系统），实现三大关键优化：

智能任务调度：自动分配 GPU、TPU 等算力资源，避免多团队争抢导致的效率损耗，尤其适配 “跨芯片集群训练” 场景，支持数千颗芯片协同工作；
自动故障恢复：训练过程中若出现硬件故障或任务放缓，系统会基于自动 checkpoint（检查点）技术，在几秒内重启任务，最大限度减少 downtime，避免 “训练数天因故障前功尽弃” 的风险；
简化运维成本：企业无需自行部署、维护 Slurm 软件或编写调度脚本，谷歌云负责底层环境更新与故障修复，让技术团队聚焦模型算法而非基础设施管理。

相比之下，CoreWeave 等服务商虽提供按需 GPU 租赁（如英伟达 H100），但需企业自行解决训练软件部署、任务调度与故障处理，增加了技术门槛；而 AWS、Azure 的通用云服务，在 “大规模 AI 训练专项优化” 上缺乏针对性，调度效率与容错能力较弱。

2. 多芯片兼容 + 全栈工具链：适配多样化训练需求

Vertex AI Training 打破 “单一芯片依赖”，支持谷歌自研 TPU（如 Trillium TPU）、英伟达 GPU（如 H200）及其他适配大规模训练的芯片，企业可根据模型类型（如 MoE 架构、多模态模型）与成本预算灵活选择。同时，服务整合谷歌云全栈工具链：

数据处理工具：对接 BigQuery、Cloud Storage 等数据存储服务，支持海量训练数据的清洗、标注与导入；
模型监控与管理：提供实时训练指标监控（如 loss 值变化、算力利用率）、模型版本控制与迭代记录，便于团队追溯与优化；
框架兼容性：原生支持 PyTorch、TensorFlow、JAX 等主流深度学习框架，无需修改代码即可迁移现有训练任务，降低迁移成本。

这一特性尤其契合企业 “定制化模型” 需求 —— 例如训练金融领域小模型时，可选用成本较低的 TPU 集群；训练复杂多模态模型时，可切换至算力更强的英伟达 GPU，兼顾性能与经济性。

3. 复用 Gemini 训练经验：注入企业级技术沉淀

谷歌云在训练 Gemini 系列大模型过程中积累的技术（如分布式训练优化、能源效率提升），已深度融入 Vertex AI Training。例如，通过 “芯片间高速互连技术”（如 Jupiter 数据中心网络），实现多芯片集群的低延迟通信，提升大规模模型训练速度；同时借鉴 Gemini 的 “能源优化策略”，在保证性能的前提下降低算力能耗，减少企业长期训练的电力成本。这种 “实战经验复用”，是 CoreWeave 等新兴算力服务商与 AWS 等通用云厂商难以复制的优势。

三、市场竞争格局：直面 CoreWeave 与云巨头，争夺 “高价值训练客户”

Vertex AI Training 的推出，进一步激化了 AI 基础设施领域的竞争，主要对标两类玩家：

1. 对标 CoreWeave、Lambda Labs：争夺 “纯算力需求 + 高定制化客户”

CoreWeave 凭借 “按需 GPU 租赁” 模式（如英伟达 H100 按小时计费），在 AI 初创公司中占据一定市场，但存在两大短板：一是重资产模式导致亏损扩大（2024 年净亏损 8.63 亿美元，债务达 129 亿美元），二是缺乏训练全流程服务，需企业自行解决软件与运维。而 Vertex AI Training 以 “托管服务 + 全栈工具” 为卖点，吸引 “不愿投入大量运维资源、追求稳定训练体验” 的企业客户，例如新加坡 AI 联盟选择其训练 SEA-LION v4 模型，正是看重其 “低运维成本 + 高容错能力”。

2. 对标 AWS、Azure：强化 “AI 训练专项优势”

AWS、微软 Azure 虽为云市场巨头，但 AI 训练服务多为 “通用云服务的附加功能”，缺乏针对 “大规模模型从零训练” 的专项优化。例如，AWS 的 Trainium 芯片虽主打 AI 训练，但在调度效率、故障恢复上不及谷歌云的托管 Slurm；Azure 的 GPU 集群服务，在 “多芯片协同” 与 “框架深度适配” 上仍有差距。Vertex AI Training 通过 “专项优化 + Gemini 经验复用”，试图在 “企业级 AI 训练” 这一垂直领域实现突破，争夺金融、科技等行业的高价值客户（如 Salesforce AI）。

四、企业选择考量：并非 “一刀切”，需匹配自身需求

尽管 Vertex AI Training 优势显著，但并非所有企业都适用。谷歌云明确指出，服务更适合 “计划大规模从零训练模型” 的客户，而以下场景则需谨慎选择：

轻量级定制需求：若仅需通过 LoRA（低秩适应）微调现有开源模型，或通过 RAG 扩展上下文，无需使用该服务，谷歌云的基础 Gemini 微调工具已能满足需求，成本更低；
中小规模企业：从零训练模型需投入大量算力（单项目成本可能达数百万美元），且需专业算法团队支撑，中小企若无明确 “模型差异化” 需求，选择现有成熟模型微调更具性价比；
短期项目需求：若训练任务仅持续数小时或数天，CoreWeave 的按需 GPU 租赁可能更灵活，无需长期绑定谷歌云服务。

五、行业影响：推动 AI 训练 “专业化 + 企业化”，加速定制模型落地

Vertex AI Training 的发布，反映出 AI 基础设施领域的两大趋势：一是 “通用云服务” 向 “专项 AI 服务” 转型，云厂商不再满足于提供通用算力，而是针对 “训练、推理、微调” 等细分场景推出定制化解决方案；二是企业对 “自定义模型” 的需求上升，尤其金融、医疗等强监管行业，需通过专属模型保障数据安全与业务适配性，而 Vertex AI Training 这类服务，正为其降低 “从零训练” 的技术与运维门槛。

长期来看，该服务或将推动更多企业摆脱 “依赖通用大模型” 的现状，转向 “定制化模型构建”，进一步丰富 AI 应用生态。同时，其竞争压力也将倒逼 CoreWeave 提升服务完整性（如增加托管调度功能）、AWS/Azure 强化 AI 训练专项优化，最终惠及企业客户，形成 “技术迭代 + 成本下降” 的良性循环。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/gu-ge-yun-tui-chu-tuo-guan-slurm-de-vertex-ai-training-miao

AWS 对标 CoreWeave 竞争 TPU/GPU 兼容企业级 AI 训练大规模模型训练托管 Slurm 自动故障恢复谷歌云 Vertex AI Training

Like (0)

王浩然作者

0 0

从人类点击到机器意图：为智能体 AI 重构互联网生态

Previous 2025年10月28日

Anthropic 推出金融版 Claude AI，集成 Excel 直面竞争

Next 2025年10月28日

AI前沿

前美军士兵承认黑客攻击电信公司及敲诈勒索罪‌

美国司法部周二发布公告，前美军士兵卡梅隆·约翰·瓦格纽斯（Cameron John Wagenius）对黑客攻击电信公司并威胁公布窃取文件以实施敲诈的指控表示认罪。根据司法部披露…

王浩然
2025年7月19日
000
AI前沿

安永与英伟达携手助力企业测试并部署物理人工智能

人工智能正深入渗透物理世界，安永（EY）为此打造了一套结构化方案，帮助企业高效对接机器人、无人机及其他智能设备。安永不仅推出了基于英伟达工具构建的物理人工智能平台，还在佐治亚州新开…

王浩然
2025年12月8日
000
AI前沿

百度发布新型LLM：ERNIE 4.5与ERNIE X1，成本低于DeepSeek与OpenAI，但尚未开源‌

近日，中国搜索引擎巨头百度宣布推出两款全新的人工智能模型——ERNIE 4.5与ERNIE X1。ERNIE 4.5作为一款多模态语言模型，而ERNIE X1则专注于推理能力。百度…

王浩然
2025年3月20日
000
AI前沿

Anthropic让每位Claude用户成为无代码应用开发者

Anthropic公司近日宣布了一项重大更新，其Claude AI助手将转变为一个平台，允许用户创建交互式、可共享的应用程序，这一变革标志着从对话式聊天机器人向功能性软件工具的重大…

王浩然
2025年6月27日
000
AI前沿

AI生成代码的风险及企业管理策略

随着人工智能（AI）技术的飞速发展，AI工具在代码编写中的应用日益广泛。曾经，几乎所有的应用程序代码都是由人类编写的，但如今，这一格局正在发生深刻变化。一些专家，如Anthropi…

王浩然
2025年3月15日
000
AI前沿

谷歌承诺未来 4-5 年将 AI 基础设施规模提升 1000 倍，夯实全球 AI 竞争核心壁垒

为应对全球爆发式增长的 AI 需求，谷歌宣布启动史上最激进的基础设施扩张计划 —— 通过 “每 6 个月将服务器总量翻倍” 的增长节奏，目标在未来 4-5 年内实现 AI 基础设施…

王浩然
2025年11月27日
000
AI前沿

混元大和 MoE 革命：AI 模型如何变得更智能、更快速

人工智能 (AI)正在以惊人的速度发展。十年前看似未来的概念现在已成为我们日常生活的一部分。然而，我们现在遇到的人工智能才刚刚开始。由于幕后的发展，尚未见证根本性的转变，大量模型能…

王浩然
2024年12月26日
000
AI前沿

人工智能为组织转型的挑战带来了全新的维度生成式人工智能的快速工程

首先，改变对每个人来说都很难。对于大型组织来说，大规模改变就更难了。过去 15 年来，我们看到许多大型组织试图拥抱移动、大数据、云和一般数字化转型，其中许多组织在实施这些技术时一次…

王浩然
2024年9月1日
000
AI前沿

控制权的幻象：为何自主AI正迫使人类彻底反思对齐问题‌

在人工智能领域，我们正面临一个根本性转折点。2025年9月20日，人工智能专家Tehseen Zia博士发表的重要论述揭示：随着自主AI（Agentic AI）的崛起，传统AI安全…

王浩然
2025年9月23日
000
AI前沿

为什么微服务可能会随着单体应用的强势回归而终结

随着科技公司认识到单片架构的局限性，向微服务的转变在 2010 年代初开始获得发展势头。然而，亚马逊 (Prime Video)、Invision、Istio 和 Segment等…

王浩然
2024年12月1日
000
AI前沿

人工智能的最大障碍？数据可靠性。天文学家的新平台应对挑战

Astronomer是 Apache Airflow 编排软件背后的公司，现已推出Astro Observe，标志着其从一家单一产品公司扩展到竞争激烈的数据运营平台市场。此举正值企…

王浩然
2025年2月14日
000
AI前沿

大型推理模型是否真的在“思考”？——苹果研究引发业界热议‌

在人工智能领域，关于大型推理模型（LRMs）是否具备真正“思考”或“推理”能力的讨论一直如火如荼。近期，苹果公司机器学习团队发布的一篇题为《思维的错觉》的研究论文，更是将这一话题推…

王浩然
2025年6月15日
000
AI前沿

滚石出版商起诉谷歌AI摘要功能：新闻行业的版权保卫战‌

2025年9月14日，美国传媒巨头Penske Media Corporation正式对谷歌提起诉讼，指控其搜索引擎的AI摘要功能非法利用新闻内容并导致出版商流量锐减。这场诉讼不仅…

王浩然
2025年9月15日
000
AI前沿

Google AI再突破：深度思考、智能购物与视频对话创作‌

在近日的Google I/O开发者大会上，科技巨头Google宣布了一系列令人瞩目的AI技术突破，不仅强化了其Gemini系列大型语言模型的能力，还推出了多项创新功能，旨在重塑搜索…

王浩然
2025年5月22日
000
AI前沿

模组制作者正在利用人工智能在《天际》和《星露谷物语》中创造聊天伙伴

在《星露谷物语》中，玩家通常每天只能与角色对话几次。这一限制导致了许多模组的出现，这些模组增加了角色的对话内容，以便玩家可以花更多时间与虚拟伙伴相处。但与许多游戏一样，《星露谷物语…

王浩然
2024年10月19日
000
AI前沿

Jelou获1000万美元融资，欲将WhatsApp打造成交易式AI平台

在即时通讯成为企业与用户主流交互方式的当下，一个痛点始终存在：用户在聊天窗口里表达了需求，却往往要跳转至其他平台才能完成支付、身份验证等关键交易环节，这种割裂的体验不仅降低了转化率…

王浩然
2026年1月30日
000
AI前沿

AI 浏览器潜藏重大安全威胁：影子 AI 与恶意攻击的防控挑战

随着 Perplexity Comet、Fellou 等 AI 浏览器在企业场景中的普及，其内置的 AI 功能（如网页总结、自动执行操作）虽号称 “提升数字工作流效率”，却因核心安…

王浩然
2025年11月9日
000
AI前沿

ChatGPT 集成如何与 Apple Intelligence 协同工作

周三，借助新发布的 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 更新，开发人员首次体验了 Apple Intelligence 的 Chat…

王浩然
2024年10月25日
000
AI前沿

自动驾驶初创公司Pronto AI收购越野自动驾驶竞争对手SafeAI‌

在人工智能、自动驾驶和采矿领域都略懂一二的工程师群体其实并不多见。Pronto公司的CEO安东尼·莱万多夫斯基希望能尽可能多地招揽这些人才。而最近的一次收购正帮助他实现这一目标。 …

王浩然
2025年7月19日
000
AI前沿

FLUX.1 Kontext：引领企业AI管道中的情境图像生成新纪元‌

在人工智能日新月异的今天，图像生成技术正以前所未有的速度革新着我们的视觉创作体验。近日，由Stable Diffusion模型创始人创立的黑森林实验室（Black Forest L…

王浩然
2025年5月30日
000