
AI 基础设施领域迎来两大关键动态:ScaleOps 推出全新 AI Infra 产品,为自托管企业大语言模型(LLMs)实现 GPU 成本大幅削减;戴尔(Dell)与英伟达(NVIDIA)在 SC25 大会上公布合作新阶段,升级联合 AI 平台以简化复杂 AI 工作负载部署。两者从 “资源优化” 与 “硬件生态整合” 两个维度,共同为企业解决 AI 规模化落地中的效率、成本与复杂度难题,推动自托管 AI 与混合云 AI 基础设施向更实用、更经济的方向发展。
ScaleOps 的 AI Infra 产品聚焦企业自托管 LLMs 与 GPU 类 AI 应用的核心痛点 ——GPU 资源利用率低、性能波动大、冷启动延迟长及运维负担重,通过全自动化资源管理实现突破性成本节约。该产品作为其云资源管理平台的扩展,核心能力在于 “实时智能调度 + 动态适应需求”:它能基于工作负载行为与集群实时状态,自动分配并缩放 GPU 资源,无需修改现有模型部署流水线或应用代码,确保在流量激增时通过 “主动 – 被动结合机制” 维持性能稳定,同时将 GPU 冷启动延迟降至最低,避免模型加载耗时过长影响用户体验。例如,当某企业的 AI 客服模型遭遇咨询高峰时,系统会预先调配闲置 GPU 资源,确保请求响应速度不受影响,且在峰值过后自动缩减资源,避免浪费。
从实际成效来看,该产品已在 Wiz、DocuSign、Rubrik、Grubhub 等企业及多家财富 500 强公司的生产环境中落地,早期采用者的 GPU 成本降低 50%-70%。典型案例包括:一家运营数千台 GPU 的大型创意软件公司,此前 GPU 平均利用率仅 20%,引入该产品后,通过资源整合与节点动态缩放,GPU 支出削减超 50%,关键工作负载延迟降低 35%;一家全球游戏公司利用其优化数百台 GPU 上的动态 LLM 工作负载,GPU 利用率提升 7 倍,仅这一项工作负载预计每年可节省 140 万美元。此外,产品兼容性覆盖所有 Kubernetes 发行版、主流云平台、本地数据中心及隔离环境,部署过程极为简便 —— 通过单个 helm 命令即可在两分钟内完成安装,无需修改代码、重构基础设施或调整现有配置清单,完美适配企业现有 GitOps、CI/CD 及监控工具链,让工程团队无需额外学习即可快速启用优化。
在资源可视与管控方面,平台提供从 Pod、工作负载到节点、集群多维度的 GPU 利用率、模型行为及缩放决策可视化,默认缩放策略可满足多数场景需求,同时保留工程师手动微调权限,减少 DevOps 与 AIOps 团队的人工调优工作。值得注意的是,该产品采用定制化定价模式,企业需根据运营规模与需求获取专属报价,其成本节约效果通常远超平台自身投入,尤其适合基础设施预算有限、追求快速 ROI 的企业。
与此同时,戴尔与英伟达在 SC25 大会上公布的合作升级,则从硬件生态与全栈整合角度,为企业提供更强大的 AI 运行基础。双方联合打造的 “戴尔 AI 工厂(Dell AI Factory with NVIDIA)”,整合戴尔全栈基础设施与英伟达 AI 工具,辅以戴尔专业服务,核心目标是帮助企业 “从 AI 试点快速迈向生产部署”,避免因基础设施重构导致的成本浪费与效率损耗。此次升级重点体现在三大维度:
一是加速部署与性能优化。戴尔 AI 数据平台的存储引擎 ObjectScale 与 PowerScale,新增对英伟达 Dynamo NIXL 库的支持,实现可扩展 KV 缓存存储与共享,在 13.1 万 token 上下文窗口下达成 “首令牌生成时间(Time to First Token)1 秒” 的突破,同时缓解 GPU 内存压力、降低成本。硬件方面,平台新增对戴尔 PowerEdge XE7740/7745 系统的支持,该系统搭载英伟达 RTX PRO 6000 Blackwell Server Edition 与 Hopper GPU,可高效运行大型多模态模型、智能体类工作负载、训练任务及企业级推理。此外,戴尔自动化平台通过 “预调优验证部署” 消除配置猜测,搭配自动化的 AI 代码助手(Tabnine)与智能体 AI 平台(Cohere North),帮助团队快速将工作负载推向生产,同时简化规模化运维。
二是下一代基础设施升级。为支撑复杂 AI 与高性能计算(HPC)工作负载,戴尔推出 PowerEdge XE8712 服务器,将于下月上市,标准机架内可支持多达 144 台英伟达 Blackwell GPU,结合 iDRAC、OpenManage Enterprise 及集成机架控制器的统一监控与自动化,降低机架级 AI/HPC 部署门槛。网络层面,戴尔企业级 SONiC 分布系统新增对英伟达 Spectrum-X 平台及 Cumulus OS 的支持,助力企业构建跨厂商的开放式标准化 AI 网络;最新版 SmartFabric Manager 通过向导式自动化,扩展对英伟达 Spectrum-X 平台上戴尔 SONiC 的支持,缩短部署时间并减少配置错误。
三是生态扩展与灵活性提升。针对企业对工具选择的灵活性需求,红帽 OpenShift 在戴尔 AI 工厂上的验证范围扩展至更多戴尔 PowerEdge 系统,包括搭载英伟达 H100/H200 Tensor Core GPU 的 PowerEdge R760xa 与 XE9680,将红帽的管控工具与戴尔的安全基础设施结合,为企业规模化 AI 部署提供清晰路径。戴尔还扩展了 AI PC 生态,支持搭载英伟达 RTX Blackwell 与 Ada GPU 的笔记本电脑与台式机,为企业提供更多终端硬件选择;其专业服务新增 “交互式试点”,允许客户使用自有数据测试 AI 方案,通过明确指标评估业务价值,降低大规模投资风险。
从行业价值来看,戴尔与英伟达的合作直击企业 AI 落地的核心痛点 —— 多数企业在从试点到生产的过程中,常因基础设施不兼容、整合复杂而受阻。戴尔副董事长兼首席运营官 Jeff Clarke 强调,双方已完成大部分整合工作,客户无需自行重构基础设施;英伟达企业 AI 产品副总裁 Justin Boitano 则指出,此次升级顺应 “企业 AI 从实验转向转型” 的趋势,通过统一平台帮助企业实现规模化 AI 部署与可衡量价值。IDC 基础设施系统、平台与技术部门副总裁 Ashish Nadkarni 评价,这一合作 “为企业级 AI 就绪系统的交付迈出重要一步”,满足了企业对 “高性能且易运维” AI 系统的需求。
综合来看,ScaleOps 的 AI Infra 产品与戴尔 – 英伟达的联合平台升级,分别从 “软件层资源优化” 与 “硬件层生态整合” 切入,形成互补:前者帮助企业在现有基础设施上实现 GPU 效率最大化、成本最小化,后者则为企业提供更强大、更易扩展的 AI 运行硬件基础与全栈支持。两者共同反映出当前 AI 基础设施领域的核心趋势 —— 企业对 AI 的需求已从 “技术探索” 转向 “实用落地”,而 “降本增效、简化运维、灵活扩展” 成为衡量基础设施价值的关键指标,这些创新也将进一步推动 AI 在企业生产场景中的深度渗透与规模化应用。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/scaleops-yu-dai-er-ying-wei-da-he-zuo-shuang-dong-tai-ai-ji