
Zyphra、AMD 与 IBM 经过一年合作研发,成功推出首个完全基于 AMD GPU 及配套平台训练的大规模混合专家(Mixture-of-Experts,MoE)基础模型 ZAYA1。该模型的落地不仅验证了 AMD 硬件在大规模 AI 训练中的可行性,更打破了行业对 NVIDIA GPU 的依赖,为企业提供了 “不妥协性能、更低成本、更多选择” 的 AI 算力解决方案 —— 其在推理、数学运算与代码生成等核心任务上,性能比肩甚至部分超越主流开源模型,为受困于 NVIDIA GPU 供应短缺、价格飙升的企业,开辟了一条切实可行的替代路径。
从技术架构与硬件支撑来看,ZAYA1 的训练体系以 “成熟化、企业级” 为核心设计原则,未依赖任何实验性硬件或复杂配置,便于其他企业复刻。硬件层面,模型基于 AMD Instinct MI300X GPU(单卡配备 192GB 高带宽内存)、Pensando 网络设备及 ROCm 软件栈构建,部署于 IBM 云基础设施之上;节点设计采用 “8 张 MI300X GPU+InfinityFabric 互联 + 独立 Pollara 网卡” 的架构,同时通过分离网络分别处理数据集读取与检查点存储,既简化布线与网络布局以降低交换机成本,又确保训练迭代时间稳定 —— 这种简洁设计解决了传统大规模 AI 训练中 “配置复杂、调试耗时” 的痛点,例如 MI300X 的大内存容量让工程师无需过早启用复杂并行计算,即可开展早期训练,大幅降低项目调试难度。
模型性能与效率层面,ZAYA1 展现出 “轻量架构、高效算力” 的优势。作为 MoE 基础模型,ZAYA1 总参数达 83 亿,训练时激活 7.6 亿参数,通过三阶段训练完成 12 万亿 token 的数据学习,核心技术包括压缩注意力机制、优化的专家路由系统(精准引导 token 匹配对应专家模块)及轻量化残差缩放(保障深层网络稳定性)。在优化器选择上,其结合 Muon 与 AdamW 算法,针对 AMD 硬件特性进行内核融合与内存流量精简,避免优化器占用过多迭代资源;同时动态调整批次大小,搭配高效存储流水线确保 token 快速供应。测试显示,ZAYA1 可与 Qwen3-4B、Gemma3-12B、Llama-3-8B 等主流开源模型同台竞技,尤其在 MoE 架构的优势场景中表现突出 —— 因仅需运行模型的部分专家模块,推理阶段内存占用更低、服务成本显著下降,例如某银行基于 ZAYA1 开发领域专用调查模型时,无需复杂并行计算即可快速迭代,MI300X 的大内存与模型的压缩注意力机制,还缩短了评估阶段的预填充时间,提升整体开发效率。
ROCm 软件栈的适配与优化,是 ZAYA1 成功落地的关键技术突破。Zyphra 团队并未盲目移植 NVIDIA 生态下的工作流,而是针对 AMD 硬件特性调整模型维度、通用矩阵乘法(GEMM)模式与微批次大小,以适配 MI300X 的最优计算范围。例如,利用 InfinityFabric 在 “8 张 GPU 协同参与集合运算” 时的性能优势,及 Pollara 网卡在大消息传输中的高吞吐量特性,优化融合缓冲区大小;针对 4k 至 32k token 的长上下文训练,采用环形注意力(ring attention)处理分片序列、树形注意力(tree attention)优化解码过程,避免数据传输瓶颈。存储层面,通过捆绑数据集分片减少分散读取、增加节点页缓存加速检查点恢复,解决了 “小模型 IOPS 压力大、大模型带宽需求高” 的共性问题,保障长时间训练的稳定性。
在集群运维与容错设计上,ZAYA1 的方案聚焦 “减少停机时间、降低人工成本”。Zyphra 开发的 Aegis 服务可实时监控日志与系统指标,自动识别并修复网卡故障、ECC 内存错误等问题;通过延长 RCCL(ROCm Collective Communications Library)超时时间,避免短暂网络中断导致整个训练任务失败。检查点机制采用 “全 GPU 分布式存储”,而非依赖单一节点,相比传统方式将保存速度提升超 10 倍,既减少训练中断后的恢复时间,又降低运维人员工作量 —— 这些设计让长达数周的大规模训练任务故障率显著下降,直接提升算力利用率与项目推进效率。
ZAYA1 的里程碑意义,核心在于为 AI 算力采购提供 “多元化选择与风险分散” 的新思路。报告明确对比了 AMD 与 NVIDIA 生态的核心组件(如 InfinityFabric 对应 NVLINK、RCCL 对应 NCCL、hipBLASLt 对应 cuBLASLt),证实 AMD 技术栈已足够成熟支撑大规模模型开发。对企业而言,这并非意味着需淘汰现有 NVIDIA 集群,而是可采用 “NVIDIA 负责生产环境、AMD 承担特定训练阶段” 的混合策略 —— 例如利用 MI300X 的大内存优势开展模型原型迭代,借助 ROCm 的开源特性降低软件依赖,既分散供应商风险,又在不中断现有业务的前提下提升总训练容量。
文中进一步给出企业落地建议:将模型结构视为 “可调整变量” 而非固定框架,根据硬件特性优化设计;围绕训练实际需用到的集合运算规划网络架构;构建 “优先保护 GPU 计算时长” 的容错机制,而非仅记录故障;升级检查点系统以避免打乱训练节奏。这些从实践中提炼的经验,为希望摆脱单一厂商依赖、扩展 AI 算力的企业提供了可复用的蓝图,也标志着 AI 算力生态从 “NVIDIA 垄断” 向 “多厂商竞争” 的格局转变,长期来看将推动 GPU 价格回归理性、加速算力普惠。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/zaya1-ji-yu-amd-gpu-xun-lian-de-ai-mo-xing-da-cheng-li