
2025 年 10 月 29 日,Ben Dickson 报道,英伟达(Nvidia)研究团队开发出全新 4 位量化格式训练技术 “NVFP4”,成功实现以 4 位浮点(FP4)精度训练大型语言模型(LLMs),且在稳定性与准确性上达到 8 位浮点(FP8)精度模型水平。这一突破不仅将模型训练与部署的内存占用减少一半,还大幅降低计算成本,为更多企业(尤其是资源有限的中小企业与初创公司)自主训练定制化大模型提供可能,同时推动 AI 行业从 “依赖超大规模模型” 向 “高效轻量化模型” 转型。
模型量化是 AI 领域降低计算与内存成本的核心技术,其原理是将模型参数(权重)从 16 位(BF16)、32 位(FP32)等高精度格式,转换为低精度格式。此前,8 位浮点(FP8)因 “性能与效率平衡” 成为行业标准,在大幅降低 LLM 训练的计算成本与内存需求的同时,未造成显著精度损失。而 4 位浮点(FP4)作为下一代量化方向,理论上可再次减半内存占用并提升硬件性能,但长期面临 “精度瓶颈”—— 现有 4 位格式(如 MXFP4)因表示范围仅 16 个 distinct 值,难以处理高精度格式转换中的 “异常值”,易导致模型准确性大幅下降,迫使企业在 “成本节约” 与 “性能保障” 间艰难取舍。
NVFP4 通过 “智能设计 + 针对性训练方法”,破解了 4 位精度的核心痛点。一方面,针对 4 位精度表示范围有限的问题,NVFP4 采用 “多级缩放策略”,能更精准地处理数值转换中的异常值,避免其扭曲整个数据集,从而在训练中更准确地还原张量值(tensor values)。另一方面,研究团队设计专属 4 位训练方案,核心是 “混合精度策略”:并非将整个模型转为 NVFP4 格式,而是对多数图层进行 4 位量化,同时将对数值敏感的少量图层保留在 BF16 等高精度格式中,确保模型在关键环节的稳定性。此外,方案还优化了反向传播(模型学习阶段)中的梯度计算方式,减少低精度运算可能积累的偏差,进一步保障训练准确性。
为验证技术有效性,英伟达团队以 “混合 Mamba-Transformer 架构” 为基础,训练了一款 120 亿参数模型,训练数据规模达 10 万亿 tokens,并与采用 FP8 格式训练的基准模型直接对比。结果显示,NVFP4 模型的训练损失(training loss)与下游任务准确性,在整个训练过程中与 FP8 模型高度吻合,且在知识密集型推理、数学计算、常识任务等多个领域保持一致性能,仅在训练后期的代码生成基准测试中出现轻微精度波动。研究人员表示,这是 “首次成功以 4 位精度在万亿级 tokens 规模上训练十亿参数级语言模型”,为未来更高效的前沿模型训练奠定基础。
与现有 4 位格式 MXFP4 相比,NVFP4 的优势更为显著。在 80 亿参数模型的对比实验中,NVFP4 模型收敛后的损失值更低;若要达到与 NVFP4 相当的性能,MXFP4 模型需额外训练 36% 的数据,这意味着更长的训练时间与更高的成本投入。英伟达 AI 与数据中心 GPU 产品总监沙尔・纳拉辛汉(Shar Narasimhan)指出,NVFP4 让开发者与企业能以 “接近传统 8 位格式的精度” 训练部署 AI 模型,且无需受资源限制瓶颈,“可更自由地尝试新架构、加速迭代并挖掘业务洞察”,而 FP8 格式虽较 FP16 有进步,仍因较高的内存与带宽需求,限制了模型规模与推理性能,NVFP4 则打破这一限制,在保证质量的同时提供更大的增长空间。
NVFP4 的价值不仅限于模型预训练,还延伸至推理阶段。纳拉辛汉表示,采用 NVFP4 训练的模型能实现更快的推理速度与更高的吞吐量,缩短 AI 工厂的投资回报(ROI)周期,加速从模型开发到实际部署的流程。由于模型更小巧高效,即便在 token 密集型智能体应用中,也能实时输出复杂高质量响应,且无需增加能源与计算成本。例如,在客服 AI 场景中,NVFP4 模型可在普通服务器上快速处理多轮对话,同时保持回答准确性,无需依赖昂贵的多 GPU 集群。
从行业影响来看,NVFP4 有望推动 AI 模型开发格局重构。此前,仅超大规模科技公司( hyperscalers)有资源训练通用大模型,而 NVFP4 降低了训练门槛,让中型企业与初创公司也能从零开发专属模型,而非仅在现有模型基础上微调。纳拉辛汉预测,未来行业将从 “通用 LLM 主导” 转向 “多元化定制模型生态”,更多创新者将基于 NVFP4 开发高性价比的垂直领域模型(如医疗、金融专属 AI)。同时,这一技术也为 AI 效率研究指明新方向 —— 并非一味追求更低精度,而是通过 “智能系统设计” 平衡精度与效率,尤其在智能体系统(需高吞吐量、低延迟、自适应推理)的发展中,NVFP4 树立了 “精度优化不牺牲质量” 的标杆。
结合补充信息来看,NVFP4 技术已逐步落地于英伟达硬件生态。例如,在 Blackwell 架构中,第五代 Tensor Core 支持 FP4 精度计算,相较前代 Ada 架构的 FP8 性能提升一倍,且与 TensorRT-LLM 推理框架结合,可实现高效部署;下一代 Rubin CPX GPU 单卡提供约 30 PFLOPS(NVFP4 精度)算力,搭载 128GB GDDR7 显存,与 Vera CPU、Rubin 通用 GPU 组成的 Vera Rubin NVL144 CPX 平台,单机柜总 AI 算力达 8 ExaFLOPS(NVFP4 精度),较前代提升 7.5 倍,进一步释放 NVFP4 在大规模场景中的潜力。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ying-wei-da-yan-jiu-ren-yuan-tu-po-4-wei-jing-du-llm-xun