先部署再优化:顶尖 AI 工程师优先聚焦落地,成本并非核心考量

先部署再优化:顶尖 AI 工程师优先聚焦落地,成本并非核心考量

在 AI 规模化应用进程中,企业面临的核心挑战已从 “控制成本” 转向 “解决延迟、灵活性与算力容量问题”。顶尖 AI 工程师普遍遵循 “先部署、后优化” 的策略,将技术快速落地视为首要目标,而成本仅作为后续调整的次要因素。这一趋势在食品配送企业 Wonder 与生物科技公司 Recursion 的实践中得到充分体现,两家公司通过不同的基础设施布局,印证了 “算力容量、部署速度与灵活性” 对 AI 落地的关键作用。

核心趋势:成本退居次位,落地效率成关键

尽管 AI 算力支出持续攀升,但对规模化应用 AI 的企业而言,成本已不再是决策的核心约束。Wonder 的 CTO 詹姆斯・陈(James Chen)透露,AI 仅为每份外卖订单增加 2-3 美分成本(目前正快速上涨至 5-8 美分),相较于整体运营成本几乎可以忽略不计;Recursion 的 CTO 本・梅比(Ben Mabey)也表示,长期来看,合理的基础设施布局能有效控制成本,真正阻碍创新的是 “因担心账单而不敢使用算力”。

企业更关注的三大核心痛点的具体表现如下:一是算力容量短缺,随着 AI 需求激增,云服务商的 CPU 与存储资源常出现供应不足,迫使企业提前调整部署方案;二是部署灵活性不足,需在云端与本地设施间切换,以适配不同类型的 AI 任务;三是延迟问题,部分实时场景(如外卖推荐、物流调度)对 AI 响应速度要求极高,基础设施的稳定性直接影响用户体验。这种转变意味着,企业 AI 战略已从 “精打细算控成本” 转向 “全力以赴保落地”,顶尖工程师更倾向于快速验证技术可行性,再通过后续优化降低支出。

Wonder:云端优先,应对容量危机与动态预算

作为 100% 云原生的 AI 企业,Wonder 的 AI 应用贯穿推荐系统、物流调度等核心环节,其核心挑战集中在 “算力容量” 与 “动态预算管理”。公司初期假设云服务具备 “无限容量”,可支持快速迭代,但随着业务增长,仅在半年前就收到云服务商的资源预警,需紧急启用 “多区域部署” 的 B 计划 —— 这比原计划提前了两年。这一经历让 Wonder 意识到,算力容量已成为制约 AI 快速部署的首要瓶颈,尤其是在业务规模快速扩张的阶段。

在模型选择上,Wonder 当前依赖大型模型以最大化订单转化率,核心目标是向用户精准推荐新餐厅。尽管长期来看,为每位用户定制 “微型模型”(基于购买历史与点击流数据)是更优方案,但目前单人定制模型的成本过高,尚不具备经济可行性。预算管理方面,公司采取 “宽松实验 + 事后审核” 的模式,给予开发者与数据科学家充分的算力自主权,同时通过内部审查避免算力浪费。但詹姆斯・陈坦言,AI 预算管理更像 “一门艺术而非科学”:新模型层出不穷,企业必须及时跟进以保持竞争力;而基于 Token 的计费模式充满不确定性,且超过 50%(最高达 80%)的成本源于 “重复发送相同上下文信息”,这一问题亟待通过技术优化解决。

Recursion:混合架构,平衡算力需求与成本控制

与 Wonder 的云端优先策略不同,生物科技公司 Recursion 采用 “本地集群 + 云端推理” 的混合基础设施布局,既满足大规模训练的算力需求,又通过灵活调度控制成本。公司 CTO 本・梅比解释,2017 年搭建首套 AI 基础设施时,云服务商的方案无法满足需求,因此选择自主部署基于英伟达 1080 游戏显卡的集群;如今这些显卡仍在使用,打破了 “GPU 寿命仅 3 年” 的行业神话,而后续新增的英伟达 H100、A100 显卡,更是成为支撑 AI 训练的核心算力。

在任务分配上,Recursion 形成清晰的分工:需要全连接网络与海量数据(如基于 PB 级图像库训练基础模型)的大型训练任务,部署在本地集群,借助高并行文件系统提升效率;短期、低优先级的推理任务(如生物数据上传、DNA 序列分析)则运行在云端,并通过 “抢占式调度”(中断低优先级任务以保障高优先级任务)优化资源使用。成本方面,本地部署的大规模工作负载比云端 “保守估计便宜 10 倍”,5 年总拥有成本(TCO)仅为云端的一半;而小规模存储需求则选择云端,成本更具竞争力。本・梅比强调,AI 成本控制的关键是 “长期投入承诺”,若仅依赖按需付费的云端服务,团队会因担心账单而减少算力使用,最终阻碍创新。

行业启示:先落地再优化,基础设施是核心支撑

两家企业的实践共同揭示了 AI 规模化落地的核心逻辑:在技术快速迭代的当下,“快速部署、验证价值” 比 “极致控成本” 更为重要。顶尖 AI 工程师之所以优先聚焦部署,是因为只有让技术真正落地,才能发现真实场景中的问题(如算力瓶颈、用户需求偏差),后续的成本优化才有针对性。

对企业而言,有两大关键启示。一是基础设施布局需适配业务需求:云端适合灵活、短期的任务,本地集群更适合大规模、长期的训练任务,混合架构能兼顾灵活性与成本效益;二是预算管理需预留弹性空间,过度限制算力使用会扼杀创新,而通过 “事后审核、技术优化”(如减少重复上下文传输),可在不影响部署速度的前提下控制成本。

总体而言,“先部署、后优化” 的策略已成为顶尖 AI 团队的共识。在 AI 技术竞争日益激烈的背景下,企业若过度纠结于初期成本,可能错失市场机会;而以 “落地效率” 为核心,搭配适配的基础设施与动态预算管理,才能在快速验证技术价值的同时,逐步实现成本与效率的平衡。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/xian-bu-shu-zai-you-hua-ding-jian-ai-gong-cheng-shi-you

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年11月13日
Next 2025年11月13日

相关推荐

发表回复

Please Login to Comment