
当前,人工智能已广泛应用于各类实际场景,但碎片化的软件技术栈却成为其进一步发展的阻碍。开发者常常需要为不同的硬件目标重新构建相同的模型,将大量时间耗费在衔接代码上,而非专注于开发和交付新功能。不过,行业正迎来积极转变:统一的工具链与优化的库文件逐渐普及,使得模型能够在不同平台间部署,且无需牺牲性能。
然而,软件复杂性仍是亟待突破的关键障碍。各类分散的工具、针对特定硬件的优化操作以及多层级的技术栈,持续制约着 AI 技术的推进速度。为推动下一波 AI 创新浪潮,行业必须彻底摆脱孤立开发的模式,转向流程精简、端到端的平台化发展方向。如今,这一变革已初见端倪,主流云服务提供商、边缘平台供应商以及开源社区正共同发力,打造统一的工具链,简化从云端到边缘端的开发与部署流程。
AI 技术发展面临的瓶颈,不仅源于硬件种类的多样性,更在于跨框架和跨目标平台的重复工作,这严重延缓了价值实现的进程。从硬件层面来看,存在 GPU、NPU、仅支持 CPU 的设备、移动系统级芯片(SoC)以及定制化加速器等多种类型,每种硬件的架构和性能特性各不相同,适配难度较大。工具与框架的碎片化问题也十分突出,TensorFlow、PyTorch、ONNX、MediaPipe 等众多框架各有优势与适用场景,开发者在不同项目中切换框架时,往往需要重新学习和适配,增加了开发成本。此外,边缘设备存在特殊约束,它们对实时性、能效要求极高,同时还需控制资源占用,这对 AI 模型的部署提出了更严苛的要求。据 Gartner 研究显示,上述这些不匹配因素导致超过 60% 的 AI 项目在投入生产前就陷入停滞,核心原因便是集成复杂性高与性能波动大。
软件简化的趋势正围绕五项关键举措形成,这些举措能够有效降低重新开发的成本与风险。首先是跨平台抽象层的构建,它能最大程度减少模型移植时的重新开发工作,让开发者无需针对不同硬件单独编写代码。其次,将性能优化的库文件整合到主流机器学习框架中,开发者在使用熟悉的框架时,便能直接调用经过优化的功能,提升模型运行效率。再者,采用从数据中心到移动设备都能适配的统一架构设计,确保 AI 系统在不同规模的硬件上都能稳定运行。同时,推广 ONNX、MLIR 等开放标准与运行时环境,减少厂商锁定现象,提升不同平台间的兼容性。最后,打造以开发者为核心的生态系统,注重开发速度、结果可复现性与系统可扩展性,让开发者能够更高效地开展工作。这些转变让 AI 技术变得更加易于获取,尤其是对于此前缺乏资源进行定制化优化的初创企业和学术团队而言,无疑是重大利好。Hugging Face 的 Optimum 项目以及 MLPerf 基准测试等,也在助力跨硬件性能的标准化与验证工作,推动行业朝着更规范的方向发展。
软件简化已不再是遥不可及的目标,而是正在发生的现实。如今,软件因素在知识产权(IP)和芯片设计阶段就开始影响决策,使得相关解决方案从一开始就能满足生产需求。行业内的主要参与者通过协调硬件与软件的开发工作,实现了技术栈各环节的紧密集成,有力推动了这一变革。边缘推理的快速崛起是重要催化剂之一,AI 模型直接部署在设备上而非依赖云端,这一趋势使得对支持端到端优化(从芯片到系统再到应用)的精简软件技术栈需求激增。以 Arm 公司为例,其通过加强计算平台与软件工具链的耦合,帮助开发者在不牺牲性能与可移植性的前提下,加快部署速度。此外,多模态与通用基础模型(如 LLaMA、Gemini、Claude)的出现,也增加了对灵活运行时环境的需求,这类模型需要能在云端与边缘环境中灵活扩展。而能够自主交互、适应环境并执行任务的 AI 智能体,进一步推动了对高效、跨平台软件的需求。MLPerf Inference v3.1 版本收录了来自 26 个提交者的超过 13500 项性能结果,涵盖数据中心与边缘设备,充分证明了当前经过优化的多平台部署方案正得到广泛测试与共享。综合这些信号可知,市场需求与激励机制正围绕一系列共同目标形成合力,包括最大化每瓦性能、确保可移植性、最小化延迟,以及实现规模化的安全性与一致性。
要实现简化 AI 平台的愿景,还需满足多项关键条件。首先,硬件与软件必须进行深度协同设计,硬件的特性(如矩阵乘法器、加速器指令)需在软件框架中充分体现,同时软件设计也要能充分利用底层硬件的优势,形成良性互动。其次,需要具备稳定、功能完善的工具链与库文件,开发者依赖这些可靠且文档齐全的资源在不同设备上开展工作,只有工具稳定且支持到位,性能可移植性才有实际意义。再者,开放的生态系统不可或缺,硬件厂商、软件框架维护者与模型开发者需加强合作,通过标准制定与项目共享,避免在每款新设备或每个新用例上重复开发。另外,抽象层设计需把握好平衡,高层面的抽象虽能为开发者提供便利,但在需要优化或监控的环节,仍需保留相应的操作空间与可见性,实现抽象与控制的有机统一。最后,随着计算逐渐向边缘设备与移动设备转移,数据保护、安全执行、模型完整性与隐私保障等问题日益重要,必须将安全、隐私与信任构建融入软件设计的全过程。
Arm 公司便是以生态系统为主导推动 AI 简化的典型案例。如今,大规模简化 AI 技术依赖于系统级的设计思路,让芯片、软件与开发者工具协同演进。这种方式不仅能让 AI 工作负载在从云端推理集群到受电池容量限制的边缘设备等各类环境中高效运行,还能减少定制化优化的成本,帮助企业更快地将新产品推向市场。Arm(纳斯达克股票代码:Arm)正通过以平台为核心的策略推进这一模式,将硬件与软件的优化整合到软件技术栈中。在 2025 年台北国际电脑展(COMPUTEX 2025)上,Arm 展示了其最新的 Arm9 CPU 如何结合 AI 专用指令集扩展(ISA extensions)与 Kleidi 库,实现与 PyTorch、ExecuTorch、ONNX Runtime 和 MediaPipe 等广泛使用的框架的深度集成。这种整合减少了对定制内核或手动优化算子的需求,让开发者无需放弃熟悉的工具链,就能充分发挥硬件性能。
这一模式在实际应用中产生了显著影响。在数据中心领域,基于 Arm 架构的平台在每瓦性能上表现优异,这对于可持续地扩展 AI 工作负载至关重要,能够在提升性能的同时降低能源消耗。在消费类设备上,这些优化带来了超高响应速度的用户体验,实现了始终在线的后台智能功能,且能有效控制功耗,延长设备续航。从更广泛的行业层面来看,简化已成为设计的核心要求,AI 支持被直接纳入硬件发展规划,软件可移植性得到重点优化,同时主流 AI 运行时环境的支持也在走向标准化。Arm 的实践充分证明,通过对计算技术栈各环节的深度整合,能够让可扩展的 AI 成为现实。
市场层面的验证与发展势头也十分强劲。2025 年,运送给主要超大规模数据中心运营商的计算设备中,近一半将采用 Arm 架构,这一里程碑事件标志着云基础设施发生了重大转变。随着 AI 工作负载对资源的需求不断增加,云服务提供商愈发重视那些能提供卓越每瓦性能且支持软件无缝移植的架构,这一转变体现了行业向高能效、可扩展基础设施的战略倾斜,以满足现代 AI 的性能需求与发展要求。在边缘设备领域,兼容 Arm 架构的推理引擎让实时翻译、始终在线的语音助手等功能在依赖电池供电的设备上得以实现,将强大的 AI 能力直接交付给用户,同时兼顾了能源效率。开发者层面的发展势头也在加速,GitHub 与 Arm 近期合作推出了适用于 GitHub Actions 的原生 Arm Linux 和 Windows 运行器,简化了基于 Arm 平台的持续集成(CI)工作流程,降低了开发者的入门门槛,助力大规模跨平台开发效率的提升。
需要明确的是,简化并非完全消除复杂性,而是以更有利于创新的方式对其进行管理。随着 AI 技术栈逐渐趋于稳定,那些能够在碎片化环境中实现无缝性能表现的企业,将在竞争中脱颖而出。从未来发展趋势来看,基准测试将发挥 “护栏” 作用,MLPerf 与开源软件套件将指导后续的优化方向;硬件特性将更多地融入主流工具,减少定制分支的使用,实现更广泛的兼容性;研究与生产环节的衔接将更加紧密,借助共享运行时环境,加快从学术论文到实际产品的转化速度。
AI 发展的下一阶段,关注点不仅在于高端硬件,更在于具备良好可移植性的软件。当同一模型能够在云端、客户端设备和边缘设备上高效运行时,团队能够更快地交付产品,减少在技术栈重构上的时间投入。行业范围内的简化,而非单一品牌的宣传口号,将决定企业的竞争成败。切实可行的行动方案已然清晰:整合平台、优化核心工具、通过开放基准测试进行评估。Arm 的 AI 软件平台正在为这一未来提供支持,实现高效、安全且规模化的 AI 部署。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/jian-hua-ai-ji-shu-zhan-shi-xian-cong-yun-duan-dao-bian