
在AI基础设施赛道的竞速中,CoreWeave凭借AI原生云的定位异军突起,成为众多AI实验室和企业的关键合作伙伴。近日,该公司产品高级副总裁科里·桑德斯(Corey Sanders)在接受Unite.AI采访时,分享了他在微软20年的行业洞察,以及CoreWeave如何凭借专用化策略破解AI基础设施的痛点。
### 从微软到CoreWeave:20年企业服务的核心启示
桑德斯在微软的20年职业生涯横跨Windows工程、云销售策略和行业云解决方案,这段经历让他深刻理解企业客户的核心需求。他指出,企业技术 adoption的关键并非为了创新而创新,而是解决具体的业务痛点。”企业客户愿意尝试创新方法,但最终更看重实用性而非炫酷的技术,”桑德斯强调,”产品设计中最常见的错误就是过度沉迷于技术本身的酷炫,而忽略了客户的实际问题。”
在CoreWeave,桑德斯将这一理念贯穿始终。他认为,企业客户真正关心的是如何降低支持成本、简化运营复杂度、提升客户连接效率,或是更好地管理全球团队和产品线。CoreWeave的产品策略正是围绕这些实际需求展开,而非追求通用化的技术覆盖。
### 专用化VS通用化:AI基础设施的本质差异
当被问及CoreWeave的”专用AI基础设施”与通用云平台的区别时,桑德斯用软硬件两个实例进行了阐释。在软件层面,CoreWeave的Object Storage产品搭配LOTA缓存,专为AI工作负载的缓存需求设计。该缓存直接部署在GPU节点上,通过跨节点扩展缓存,将GPU的吞吐量提升至每秒7GB,远超通用云平台的表现。这种设计基于AI工作负载的读写模式和集群布局假设,若用于数据库或电商网站则无法发挥优势,正是专用化的典型体现。
在硬件层面,CoreWeave的数据中心从设计之初就围绕AI需求构建。由于大量采用最新一代NVIDIA GPU,这些设备需要液冷系统支持,CoreWeave直接将液冷集成到数据中心架构中,而通用云平台通常是在现有设施上进行液冷改造。这种原生设计不仅降低了成本,还提升了高端GPU的可用性。
桑德斯指出,通用云平台的困境在于需要兼顾所有使用场景,无法针对AI工作负载进行深度优化。而CoreWeave的专用化策略使其能够聚焦AI需求,提供更高效的解决方案。
### 规模化AI训练的隐藏挑战:不止于GPU
许多企业在开始规模化AI训练时,往往只关注GPU资源,却忽略了配套服务的重要性。桑德斯提醒道,在大规模GPU集群中,存储、网络、可观测性、编排和安全等周边服务才是成功的关键。CoreWeave的Mission Control产品正是为解决这些问题而生,它能让客户深入了解整个集群的节点健康状况和运行时数据,并将这些信息集成到编排引擎中,使数千个GPU像一个统一的实体一样协同工作。
### 未来优先级:性能、易用性与创新门槛
当前,CoreWeave的产品研发聚焦三大方向:首先是持续提升平台的性能、可靠性和可观测性,确保客户能够稳定利用每一个GPU的计算能力;其次是简化新用户的上手流程,降低SLURM等工具的使用门槛;最后是开发新的服务和计费模式,降低AI创新的进入壁垒。
桑德斯提到,当前AI创新面临着容量限制、长期合同和专业人才需求等多重门槛,CoreWeave希望通过更灵活的服务模式,让客户能够以更小的规模启动创新项目。
### 从训练到推理:AI基础设施的新战场
随着AI工作负载从训练向推理转移,CoreWeave看到了新的机遇。桑德斯表示,LOTA缓存等技术可以从训练场景扩展到推理场景,例如与KVCache集成,成为推理性能的差异化优势。同时,Mission Control等可观测性工具在推理场景中变得更加重要,因为GPU健康状况直接影响着智能应用的可用性。
### 未来两年:AI云市场的领导力定义
在桑德斯看来,未来1-2年,AI云市场的领导力将由两大能力定义:一是满足不断增长的训练规模需求,这需要在可观测性、健康监控和自动恢复方面持续创新,毕竟当GPU数量从数百台扩展到数万台时,人工故障响应已不可行;二是提供适合推理和智能体工作负载的服务,这需要全球部署能力和鼓励实验的商业模式。
### 垂直行业经验的迁移:GPU迭代的永恒挑战
桑德斯曾领导微软在医疗、零售、金融服务、制造业和主权云等垂直领域的云项目,这些经验在CoreWeave也找到了用武之地。他指出,GPU的代际更迭不断带来新的复杂性,每一代GPU都在互联能力、内存和功耗上有显著提升,这要求基础设施提供商不断重新思考节点连接、机架管理和软件交付方式。CoreWeave必须持续聚焦这些挑战,才能保持领先地位。
不过,桑德斯也看到了积极的一面:客户对大规模计算的适应速度远超预期,他们能够利用不断增长的计算能力实现更宏大的目标。
### 超越 uptime:AI时代的可靠性新定义
在AI基础设施领域,可靠性的内涵早已超越了简单的节点 uptime。桑德斯表示,在大规模运算中,个别节点的故障或减速是不可避免的,客户真正关心的是能否完成任务。CoreWeave将Mission Control与SUNK(Kubernetes上的Slurm)等高层服务集成,实现故障的自动响应,避免客户损失数小时甚至数周的工作成果。对CoreWeave而言,成功的指标不是节点的在线时间,而是任务的完成率。
### 被低估的趋势:强化学习的复兴
当被问及AI基础设施领域被低估的趋势时,桑德斯认为强化学习(RL)的复兴值得关注。尽管强化学习并非新技术,但在大语言模型(LLM)发展的初期阶段被掩盖了光芒。如今,强化学习正在回归,将在使AI服务更好地响应用户需求方面发挥关键作用。CoreWeave目前已推出无服务器强化学习服务,正是对这一趋势的布局。
在AI基础设施的赛道上,CoreWeave凭借专用化策略和对客户需求的深刻理解,正在重新定义AI云市场的竞争格局。桑德斯的行业洞察和CoreWeave的实践,为我们揭示了AI基础设施发展的核心逻辑:真正的创新源于对客户痛点的精准把握,而非技术的盲目堆砌。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/coreweave-gao-guan-jie-mi-ai-zhuan-yong-yun-ru-he-dian-fu