英伟达研究人员突破 4 位精度 LLM 训练技术，性能媲美 8 位精度

王浩然 • 2025年11月2日下午2:00 • AI前沿 • 261 views

2025 年 10 月 29 日，Ben Dickson 报道，英伟达（Nvidia）研究团队开发出全新 4 位量化格式训练技术 “NVFP4”，成功实现以 4 位浮点（FP4）精度训练大型语言模型（LLMs），且在稳定性与准确性上达到 8 位浮点（FP8）精度模型水平。这一突破不仅将模型训练与部署的内存占用减少一半，还大幅降低计算成本，为更多企业（尤其是资源有限的中小企业与初创公司）自主训练定制化大模型提供可能，同时推动 AI 行业从 “依赖超大规模模型” 向 “高效轻量化模型” 转型。

模型量化是 AI 领域降低计算与内存成本的核心技术，其原理是将模型参数（权重）从 16 位（BF16）、32 位（FP32）等高精度格式，转换为低精度格式。此前，8 位浮点（FP8）因 “性能与效率平衡” 成为行业标准，在大幅降低 LLM 训练的计算成本与内存需求的同时，未造成显著精度损失。而 4 位浮点（FP4）作为下一代量化方向，理论上可再次减半内存占用并提升硬件性能，但长期面临 “精度瓶颈”—— 现有 4 位格式（如 MXFP4）因表示范围仅 16 个 distinct 值，难以处理高精度格式转换中的 “异常值”，易导致模型准确性大幅下降，迫使企业在 “成本节约” 与 “性能保障” 间艰难取舍。

NVFP4 通过 “智能设计 + 针对性训练方法”，破解了 4 位精度的核心痛点。一方面，针对 4 位精度表示范围有限的问题，NVFP4 采用 “多级缩放策略”，能更精准地处理数值转换中的异常值，避免其扭曲整个数据集，从而在训练中更准确地还原张量值（tensor values）。另一方面，研究团队设计专属 4 位训练方案，核心是 “混合精度策略”：并非将整个模型转为 NVFP4 格式，而是对多数图层进行 4 位量化，同时将对数值敏感的少量图层保留在 BF16 等高精度格式中，确保模型在关键环节的稳定性。此外，方案还优化了反向传播（模型学习阶段）中的梯度计算方式，减少低精度运算可能积累的偏差，进一步保障训练准确性。

为验证技术有效性，英伟达团队以 “混合 Mamba-Transformer 架构” 为基础，训练了一款 120 亿参数模型，训练数据规模达 10 万亿 tokens，并与采用 FP8 格式训练的基准模型直接对比。结果显示，NVFP4 模型的训练损失（training loss）与下游任务准确性，在整个训练过程中与 FP8 模型高度吻合，且在知识密集型推理、数学计算、常识任务等多个领域保持一致性能，仅在训练后期的代码生成基准测试中出现轻微精度波动。研究人员表示，这是 “首次成功以 4 位精度在万亿级 tokens 规模上训练十亿参数级语言模型”，为未来更高效的前沿模型训练奠定基础。

与现有 4 位格式 MXFP4 相比，NVFP4 的优势更为显著。在 80 亿参数模型的对比实验中，NVFP4 模型收敛后的损失值更低；若要达到与 NVFP4 相当的性能，MXFP4 模型需额外训练 36% 的数据，这意味着更长的训练时间与更高的成本投入。英伟达 AI 与数据中心 GPU 产品总监沙尔・纳拉辛汉（Shar Narasimhan）指出，NVFP4 让开发者与企业能以 “接近传统 8 位格式的精度” 训练部署 AI 模型，且无需受资源限制瓶颈，“可更自由地尝试新架构、加速迭代并挖掘业务洞察”，而 FP8 格式虽较 FP16 有进步，仍因较高的内存与带宽需求，限制了模型规模与推理性能，NVFP4 则打破这一限制，在保证质量的同时提供更大的增长空间。

NVFP4 的价值不仅限于模型预训练，还延伸至推理阶段。纳拉辛汉表示，采用 NVFP4 训练的模型能实现更快的推理速度与更高的吞吐量，缩短 AI 工厂的投资回报（ROI）周期，加速从模型开发到实际部署的流程。由于模型更小巧高效，即便在 token 密集型智能体应用中，也能实时输出复杂高质量响应，且无需增加能源与计算成本。例如，在客服 AI 场景中，NVFP4 模型可在普通服务器上快速处理多轮对话，同时保持回答准确性，无需依赖昂贵的多 GPU 集群。

从行业影响来看，NVFP4 有望推动 AI 模型开发格局重构。此前，仅超大规模科技公司（ hyperscalers）有资源训练通用大模型，而 NVFP4 降低了训练门槛，让中型企业与初创公司也能从零开发专属模型，而非仅在现有模型基础上微调。纳拉辛汉预测，未来行业将从 “通用 LLM 主导” 转向 “多元化定制模型生态”，更多创新者将基于 NVFP4 开发高性价比的垂直领域模型（如医疗、金融专属 AI）。同时，这一技术也为 AI 效率研究指明新方向 —— 并非一味追求更低精度，而是通过 “智能系统设计” 平衡精度与效率，尤其在智能体系统（需高吞吐量、低延迟、自适应推理）的发展中，NVFP4 树立了 “精度优化不牺牲质量” 的标杆。

结合补充信息来看，NVFP4 技术已逐步落地于英伟达硬件生态。例如，在 Blackwell 架构中，第五代 Tensor Core 支持 FP4 精度计算，相较前代 Ada 架构的 FP8 性能提升一倍，且与 TensorRT-LLM 推理框架结合，可实现高效部署；下一代 Rubin CPX GPU 单卡提供约 30 PFLOPS（NVFP4 精度）算力，搭载 128GB GDDR7 显存，与 Vera CPU、Rubin 通用 GPU 组成的 Vera Rubin NVL144 CPX 平台，单机柜总 AI 算力达 8 ExaFLOPS（NVFP4 精度），较前代提升 7.5 倍，进一步释放 NVFP4 在大规模场景中的潜力。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ying-wei-da-yan-jiu-ren-yuan-tu-po-4-wei-jing-du-llm-xun

4 位精度 LLM 训练 FP4 FP8 MXFP4 NVFP4 推理性能模型量化混合精度策略英伟达训练损失

Like (0)

王浩然作者

0 0

IBM 发布开源 Granite 4.0 Nano AI 模型：轻量可本地运行，浏览器内即可部署

Previous 2025年11月2日

智能体 AI 的核心在于上下文工程

Next 2025年11月2日

AI前沿

Perplexity 与 Snap 达成 4 亿美元合作，将 AI 搜索引入 Snapchat

AI 搜索领域的重要参与者 Perplexity AI 与社交平台 Snap 正式宣布达成一项规模达 4 亿美元的合作协议，计划自 2026 年初起，将 Perplexity 的 …

王浩然
2025年11月11日
000
AI前沿

Augment Code发布AI编程助手Augment Agent，以70%胜率超越GitHub Copilot并刷新SWE-bench纪录‌

在人工智能（AI）技术持续推动各行各业变革的背景下，AI编程助手正逐渐成为软件开发领域的重要辅助工具。近期，Augment Code公司正式推出了其创新性的AI编程助手——Augm…

王浩然
2025年4月4日
000
AI前沿

算法和人工智能让世界更美好

助理教授 Manish Raghavan 希望计算技术能够帮助解决社会问题。算法决策和人工智能带来诸多好处，包括彻底改变广泛领域的速度、效率和预测能力。Manish Raghav…

王浩然
2025年1月27日
000
AI前沿

模型上下文协议（MCP）如何借助工具与数据标准化AI连接

在当今快速发展的AI领域，各种模型与系统之间的互操作性成为了一个亟待解决的问题。模型上下文协议（Model Context Protocol，简称MCP）应运而生，旨在通过标准化的…

王浩然
2025年4月29日
000
AI前沿

谷歌联合ISTE+ASCD推出美国最大规模AI教师培训，覆盖600万教育工作者

近日，谷歌宣布与ISTE+ASCD（国际教育技术协会与课程发展监督协会合并后的组织）达成合作，将为美国所有600万名K-12及高等教育阶段的教师提供免费的Gemini AI培训项目…

王浩然
2026年2月26日
000
AI前沿

据报道，OpenAI 的。GPT-5 未达到预期

《华尔街日报》最新报道称，OpenAI 开发下一个主要模型 GPT-5 的努力正在落后于计划，其结果尚未证明其巨大的成本是合理的。这与 The Information之前的一篇报…

王浩然
2024年12月23日
000
AI前沿

Microsoft发布Phi-4-reasoning-plus：小巧而强大的开源权重推理模型

近日，Microsoft Research宣布推出Phi-4-reasoning-plus，这是一款专为需要深入、结构化推理的任务设计的开源权重语言模型。该模型在Phi-4的基础上…

王浩然
2025年5月6日
000
AI前沿

Insilico Medicine 成功完成 IIa 期治疗肺纤维化研究，人工智能药物研发取得里程碑式进展

在人工智能药物研发方面取得突破性进展的Insilico Medicine宣布其新药 ISM001-055 的IIa 期研究结果呈阳性，该药物旨在治疗特发性肺纤维化(IPF)。这种小…

点点
2024年9月27日
000
AI前沿

Google的Gemini聊天机器人现可更便捷地分析GitHub项目

在人工智能（AI）技术日新月异的今天，各大科技公司纷纷推出了自己的AI产品，以期在激烈的市场竞争中占据一席之地。近日，Google宣布其AI聊天机器人Gemini新增了一项强大功能…

王浩然
2025年5月17日
000
AI前沿

微软在 Windows 召回系统重新发布前详细介绍了其安全/隐私方面的改进

微软正在对其备受争议的 Copilot+ Windows PC 的 Recall 功能进行另一次调整，此前该功能的原始版本在夏季安全研究人员和测试人员的严格审查下崩溃并烧毁。Rec…

点点
2024年9月30日
000
AI前沿

OpenAI启动身份验证新规：ChatGPT用户将面临强制性身份核验‌

全球领先的人工智能研究机构OpenAI正在实施一项具有里程碑意义的用户身份管理政策。自2025年1月起，部分ChatGPT用户在使用特定功能时将必须提交政府颁发的身份证件进行验证，…

王浩然
2025年9月18日
000
AI前沿

谷歌：监管壁垒下，欧盟 AI 应用落后中国

谷歌全球事务总裁肯特・沃克（Kent Walker）近日呼吁欧盟调整监管策略，以提升 AI 应用水平，应对日益激烈的国际竞争 —— 尤其是来自中国的竞争压力。在布鲁塞尔举行的 “竞…

王浩然
2025年10月6日
000
AI前沿

ChatGPT 整合 Adobe 工具转型创意套件：功能、战略与行业影响

Adobe 与 OpenAI 正式宣布达成深度合作，将 Photoshop（PS）、Adobe Express 与 Acrobat 三款核心工具整合至 ChatGPT 平台，标志着…

王浩然
2025年12月18日
000
AI前沿

Databricks与Noma联手破解CISO的AI推理噩梦‌

在人工智能（AI）领域，随着技术的不断演进，AI系统正日益融入企业的核心业务流程中。然而，对于企业首席信息安全官（CISO）而言，AI推理阶段的安全问题却成为了他们心中的一大隐忧。…

王浩然
2025年6月6日
000
AI前沿

谷歌推出人工智能编码助手“Jules”，承诺自动修复错误并加快开发周期

谷歌周三发布了人工智能编码助手“ Jules ”，它可以在开发人员睡觉时自主修复软件错误并准备代码更改，这标志着该公司在核心编程任务自动化方面取得了重大进展。该实验性的人工智能代…

王浩然
2024年12月12日
000
AI前沿

Blok利用AI人物模拟真实世界应用使用场景

在当今快节奏的数字时代，开发者们面临着前所未有的挑战：如何在快速迭代的产品周期中，确保新功能的实用性和用户体验？为了解决这一难题，一家名为Blok的初创公司横空出世，它利用人工智能…

王浩然
2025年7月12日
000
AI前沿

可控遗忘：AI 记忆领域的下一大挑战

长期以来 AI 领域的核心目标聚焦于 “提升记忆能力”—— 通过训练海量数据集、扩大模型规模与延长上下文窗口，让 AI 系统更高效地存储与召回信息。然而，随着 AI 应用的深入，“…

王浩然
2025年11月13日
000
AI前沿

Facebook推出新功能：请求使用Meta AI编辑用户未分享照片

在社交媒体日益渗透到人们日常生活的当下，Facebook（现隶属于Meta公司）再次走在技术创新的前沿，推出了一项引发广泛关注的新功能。该功能允许Facebook在用户创建新Sto…

王浩然
2025年7月3日
000
AI前沿

为何 CIO 必须引领 AI 实验，而不仅仅是监管

在当今数字化时代，人工智能（AI）已成为企业发展的核心驱动力之一，深刻改变着企业的运营模式、产品服务以及竞争格局。首席信息官（CIO）作为企业信息技术战略的掌舵者，在 AI 的发展…

王浩然
2026年1月2日
000
AI前沿

研究表明，人工智能模型在用西班牙语提问时错误率更高

人工智能模型很难用西班牙语准确回答与选举相关的问题。这是AI Democracy Projects 的一项新研究得出的结论，该项目是 Proof News、事实核查服务 Fact…

王浩然
2024年10月31日
000

发表回复

Please Login to Comment

英伟达研究人员突破 4 位精度 LLM 训练技术，性能媲美 8 位精度

相关推荐

发表回复