DeepSeek R1 在强化学习方面的大胆押注：它如何以 3% 的成本超越 OpenAI

王浩然 • 2025年1月27日下午8:00 • AI前沿 • 347 views

DeepSeek R1 于周一发布，在 AI 社区引起了轩然大波，颠覆了人们对实现尖端 AI 性能所需条件的假设。与 OpenAI 的 o1 相比，这种开源模式的成本仅为 o1 的 3%-5%，不仅吸引了开发人员，也挑战企业重新思考其 AI 战略。

该模型已飙升至 HuggingFace 上下载量最高的模型（截至撰写本文时，下载量已达 109,000 次）——开发人员纷纷尝试并试图了解它对他们的 AI 开发意味着什么。用户评论说，DeepSeek 的配套搜索功能（您可以在DeepSeek 的网站上找到）现在优于 OpenAI 和 Perplexity 等竞争对手，并且只有 Google 的 Gemini Deep Research 可以与之匹敌。

这对企业 AI 战略的影响是深远的：随着成本降低和开放访问，企业现在可以选择替代 OpenAI 等昂贵的专有模型。DeepSeek 的发布可能会使尖端 AI 功能的访问变得民主化，使较小的组织能够在 AI 军备竞赛中有效竞争。

本文重点讲述 DeepSeek 如何实现这一壮举，以及这对大量 AI 模型用户意味着什么。对于开发 AI 驱动解决方案的企业来说，DeepSeek 的突破挑战了 OpenAI 的主导地位假设，并为具有成本效益的创新提供了蓝图。DeepSeek 的“如何”实现这一壮举才是本文最具教育意义的。

DeepSeek 的突破：转向纯强化学习

11 月，DeepSeek 宣布其性能已超越 OpenAI 的 o1，成为头条新闻，但当时它只提供了有限的 R1-lite 预览模型。随着周一 R1 的完整发布和随附的技术论文，该公司透露了一项令人惊讶的创新：刻意摆脱了在训练大型语言模型 (LLM) 中广泛使用的传统监督微调 (SFT) 过程。

SFT 是 AI 开发中的一个标准步骤，涉及在精选数据集上训练模型以教授逐步推理，通常称为思维链 (CoT)。它被认为是提高推理能力的关键。然而，DeepSeek 挑战了这一假设，完全跳过了 SFT，而是选择依靠强化学习 (RL) 来训练模型。

这一大胆举措迫使 DeepSeek-R1 开发出独立的推理能力，避免了规范数据集经常带来的脆弱性。虽然出现了一些缺陷——导致团队在构建模型的最后阶段重新引入了有限数量的 SFT——但结果证实了根本性的突破：仅凭强化学习就可以带来显着的性能提升。

该公司利用开源技术取得了很大进展——这是一种传统且不足为奇的方式

首先，介绍一下 DeepSeek 是如何取得如今的成就的。DeepSeek 是中国对冲基金 High-Flyer Quant 于 2023 年成立的一家分拆公司，最初是为其专有聊天机器人开发人工智能模型，然后将其发布供公众使用。人们对该公司的具体方法知之甚少，但它很快就将其模型开源，而且该公司极有可能是在 Meta 制作的开放项目（例如 Llama 模型和 ML 库 Pytorch）的基础上构建的。

为了训练模型，High-Flyer Quant 在美国出口限制之前获得了超过 10,000 块 Nvidia GPU，据报道，尽管存在贸易壁垒，但该公司还是通过其他供应渠道将 GPU 数量扩大到 50,000 块。与 OpenAI、Google 和 Anthropic 等领先的人工智能实验室相比，这相形见绌，这些实验室各自拥有超过 500,000 块 GPU。

DeepSeek 能够以有限的资源取得有竞争力的成果，这凸显了创造力和足智多谋如何能够挑战培养最先进 LLM 的高成本模式。

尽管有猜测，但 DeepSeek 的全部预算尚不清楚

据 Nvidia 工程师 Jim Fan 称， DeepSeek 花了两个月的时间，花费 558 万美元训练了其基础模型（称为 V3）。虽然该公司尚未透露其使用的确切训练数据（旁注：批评者表示这意味着 DeepSeek 并非真正开源），但现代技术使在网络和开放数据集上进行训练变得越来越容易。估计训练 DeepSeek-R1 的总成本具有挑战性。虽然运行 50,000 个 GPU 意味着大量支出（可能高达数亿美元），但确切数字仍是推测。

但有一点很清楚，那就是 DeepSeek 从一开始就非常具有创新性。去年，有报道称它正在进行一些初步创新，例如混合专家和多头潜在注意力。

DeepSeek-R1 如何实现“顿悟时刻”

DeepSeek-R1 的最终迭代之旅始于一个中间模型 DeepSeek-R1-Zero，该模型使用纯强化学习进行训练。通过完全依赖强化学习，DeepSeek 激励该模型独立思考，奖励正确答案和得出正确答案的逻辑过程。

这种方法导致了一个意想不到的现象：模型开始为更复杂的问题分配额外的处理时间，展示了根据任务难度确定任务优先级的能力。DeepSeek 的研究人员将此描述为“顿悟时刻”，模型本身识别并阐明了解决具有挑战性的问题的新方法（见下面的屏幕截图）。这一里程碑强调了强化学习的强大功能，它可以在不依赖 SFT 等传统训练方法的情况下释放高级推理能力。

研究人员总结道：“它强调了强化学习的力量和美妙之处：我们不是明确地教模型如何解决问题，而是简单地为它提供正确的激励，它就会自主地开发出先进的解决问题的策略。”

不仅仅是 RL

但模型需要的不仅仅是强化学习。论文接着谈到，尽管强化学习创造了意想不到的强大推理行为，但中间模型 DeepSeek-R1-Zero 确实面临一些挑战，包括可读性差和语言混合（例如从中文开始切换到英文）。所以团队才决定创建一个新模型，也就是最终的 DeepSeek-R1 模型。这个模型同样基于 V3 基础模型，首先注入了有限的 SFT——专注于“少量长 CoT 数据”或所谓的冷启动数据，以解决一些挑战。之后，它经历了与 R1-Zero 相同的强化学习过程。论文随后谈到了 R1 如何经历了最后几轮微调。

后果

一个问题是，为什么这个发布会引发如此多的惊讶。开源模式并不是什么新鲜事物。开源模式背后有着巨大的逻辑和动力。它们的免费成本和可塑性是我们最近报道这些模式将在企业中获胜的原因。

例如，Meta 的开放权重模型 Llama 3 去年大受欢迎，因为开发人员希望拥有自己的自定义模型，因此对其进行了微调。同样，现在 DeepSeek-R1 已被用来将其推理提炼为一系列其他小得多的模型 – 不同之处在于 DeepSeek 提供了业界领先的性能。例如，这包括在手机上运行该模型的微型版本。

DeepSeek-R1 不仅比领先的开源替代方案 Llama 3 表现更好，而且还能透明地展示其答案的整个思路。Meta 的 Llama 并未被指示默认这样做；它需要 Llama 积极提示才能这样做。

这种透明度也给 OpenAI 带来了公关上的污点，该公司迄今为止一直向用户隐藏其思路，理由是出于竞争原因，并且当模型出错时不会让用户感到困惑。透明度使开发人员能够精确定位和解决模型推理中的错误，从而简化定制以更有效地满足企业需求。

对于企业决策者来说，DeepSeek 的成功凸显了人工智能领域的广泛转变：更精简、更高效的开发实践越来越可行。组织可能需要重新评估与专有人工智能提供商的合作关系，考虑当开源替代方案可以提供相当甚至更优的结果时，这些服务相关的高成本是否合理。

可以肯定的是，没有大幅领先

虽然 DeepSeek 的创新具有开创性，但它绝没有建立起绝对的市场领先地位。由于它发表了自己的研究成果，其他模型公司将从中学习并加以适应。法国开源模型公司 Meta 和 Mistral 可能落后了一步，但可能只需几个月他们就能赶上来。正如 Meta 的首席研究员 Yann Lecun所说：“这个想法是每个人都能从其他人的想法中获利。没有人‘超越’任何人，也没有哪个国家‘输给’另一个国家。没有人垄断好的想法。每个人都在向其他人学习。”因此，执行力至关重要。

最终，最大的赢家是消费者、初创公司和其他用户，因为 DeepSeek 的产品将继续推动使用这些模型的成本接近于零（再次排除运行推理模型的成本）。这种快速的商品化可能会给在专有基础设施上投入巨资的领先 AI 提供商带来挑战——事实上，是巨大的痛苦。正如许多评论员所说，包括 Meta 的投资者和前高管 Chamath Palihapitiya，这可能意味着OpenAI 和其他公司多年的运营支出和资本支出将被浪费。

关于使用 DeepSeek-R1 模型是否合乎道德，有很多评论，因为中国法律赋予了该模型偏见，例如，它不应该回答有关中国政府在天安门广场残酷镇压的问题。尽管存在偏见方面的道德担忧，但许多开发人员认为这些偏见在实际应用中并不常见，而且可以通过微调来缓解。此外，他们指出，OpenAI 和其他公司的模型也存在不同但类似的偏见。尽管 Meta 的 Llama 数据集未公开，存在隐藏的偏见，并因此遭到诉讼，但它已成为一种流行的开放模型。

OpenAI 大笔投资的投资回报率存在诸多疑问

这一切都引发了人们对 OpenAI、微软等公司所实施的投资计划的质疑。OpenAI耗资 5000 亿美元的星际之门项目反映了其致力于建设大型数据中心来支持其先进模型的承诺。在甲骨文和软银等合作伙伴的支持下，这一战略的前提是相信实现通用人工智能 (AGI) 需要前所未有的计算资源。然而，DeepSeek 以极低的成本展示了高性能模型，这对这种方法的可持续性提出了挑战，让人怀疑 OpenAI 能否从如此巨大的投资中获得回报。

企业家兼评论员 Arnaud Bertrand捕捉到了这一动态，将中国节俭、分散的创新与美国对集中、资源密集型基础设施的依赖进行了对比：“这是为了让世界意识到，尽管中国努力阻止这种情况发生，但中国在技术和创新方面已经赶上——甚至在某些领域超过了——美国。”事实上，昨天，另一家中国公司字节跳动宣布推出 Doubao-1.5-pro，其中包括一种“深度思考”模式，在 AIME 基准上超越了 OpenAI 的 o1。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/deepseek-r1-zai-qiang-hua-xue-xi-fang-mian-di-da-dan-ya-zhu

Deepseek R1 Google HuggingFace LLaMA Meta Nvidia OpenAI

Like (0)

王浩然作者

0 0

让艺术世界更加触手可及

Previous 2025年1月27日

DeepSeek-R1 对企业来说是一个福音——让人工智能应用更便宜、更容易构建、更具创新性

Next 2025年1月28日

AI前沿

Elicit AI深度测评：让学术研究效率翻倍的AI助手

在学术研究的快节奏世界里，面对指数级增长的文献量，每个研究者都曾有过对着“论文大山”望而却步的时刻。如何在海量信息中快速定位有价值的研究、梳理核心观点、识别研究趋势？一款名为Eli…

王浩然
2026年2月17日
000
AI前沿

通用人工智能：安永对短期未来的展望

通用人工智能（AGI）是一种人工智能，它有望通过匹配或超越人类的认知能力来颠覆多个行业并解决世界上一些最大的问题。尽管这一概念源自科幻小说，但 AGI 可能比我们想象的更接近现实…

王浩然
2025年1月26日
000
AI前沿

OnPoint Healthcare 总裁兼首席执行官 Jim Boswell – 访谈系列

Jim Boswell 是 OnPoint Healthcare 的总裁兼首席执行官，Jim 是一位战略思想家，在其 28 年的职业生涯中，他致力于在大型医疗系统和私人诊所集团内建…

点点
2024年9月14日
000
AI前沿

AI 无法修复 “劣质土壤”：企业如何构建适配 AI 落地的内部生态

当企业斥巨资引入 AI 工具却收效甚微时，问题往往不在于 AI 技术本身，而在于支撑其生长的 “内部土壤”—— 混乱的数据体系、割裂的部门协作、模糊的目标定位，这些基础性缺陷让 A…

王浩然
2025年10月18日
000
Lightricks 推出开源 AI 视频模型 LTX-2：4K 画质、同步音效与快速渲染重构创作流程

Lightricks 于 2025 年 10 月 24 日发布全新开源 AI 视频基础模型 LTX-2，该模型以 “超高速渲染、高清画质、音视频同步生成” 为核心优势，彻底打破当前…

王浩然
AI前沿 2025年10月25日
000
AI前沿

上海杀出超级独角兽公司，一次融了5个亿

又一个师生联手创业的案例。

点点
2024年9月3日
000
AI前沿

从意图到执行：微软如何将大型语言模型转变为行动导向型人工智能

大型语言模型 (LLM)改变了我们处理自然语言处理的方式。它们可以回答问题、编写代码和进行对话。然而，它们在处理实际任务时却力不从心。例如，LLM 可以指导您购买夹克，但不能为您下…

王浩然
2025年1月12日
000
AI前沿

Evogene与Google Cloud发布生成分子设计基础模型，开创生命科学AI新时代‌

Evogene Ltd.近日宣布，与Google Cloud携手推出了一款突破性的生成式AI基础模型，该模型专注于小分子设计，标志着新化合物发现方式的重大革新。这一成果于2025年…

王浩然
2025年6月12日
000
AI前沿

2026制造业与供应链报告：AI成刚需，韧性重构行业未来

当全球制造业与供应链领域的从业者还在复盘过去几年的动荡时，一份最新行业报告已经勾勒出了这个领域的全新轮廓。近日，全球供应链与制造企业Fictiv联合机械零部件及制造服务供应商MIS…

王浩然
2026年2月24日
000
AI前沿

腾讯研究院对话前OpenAI研究员：为什么伟大不能被计划？

2024年9月25日，腾研读书举办了一场对谈，腾讯研究院资深专家袁晓辉对谈前OpenAI研究员，也是《为什么伟大不能被计划》一书的两位作者肯尼斯·斯坦利（Kenneth Stanl…

点点
2024年10月12日
000
AI前沿

Betaworks 在其最新 Camp 中专注于 AI 应用

在最近的 Camp 中，风险投资和加速器 Betaworks 一直在寻找能够利用 AI 构建原生应用程序的初创公司。该计划于 5 月首次公布。为了解释这一重点，管理合伙人 Joh…

王浩然
2024年10月31日
000
AI前沿

Runway 的全新 AI 图像生成器 Frames 现已推出，其画面效果非常具有电影感

AI 媒体技术提供商Runway宣布推出其最新的文本转图像生成模型 Frames，该模型因制作出极具电影感的视觉效果而赢得了用户的早期赞誉——鉴于 Runway 主要以 AI 视频…

王浩然
2025年1月18日
000
AI前沿

Magistral-Mistral AI：向科技巨头的推理模型发起挑战‌

在人工智能（AI）领域，一场新的竞赛正在悄然上演。近日，一家名为Magistral-Mistral的初创公司宣布，其自主研发的AI推理模型已具备挑战科技巨头们的实力。这一消息迅速在…

王浩然
2025年6月16日
000
AI前沿

“AI 医生，我健康吗？”：59% 的英国人依赖 AI 进行自我诊断

在科技日益发达的当下，人工智能（AI）正以前所未有的态势渗透进医疗健康领域。一项引人注目的现象是，59% 的英国人开始依赖 AI 进行自我诊断。这一数据不仅凸显了 AI 在医疗自我…

王浩然
2026年1月10日
000
AI前沿

OpenAI的Sora通过微软Bing视频创作者免费向所有用户开放‌

在AI技术日新月异的今天，每一个创新都可能在瞬间改变行业格局。近日，OpenAI的明星产品Sora通过微软Bing视频创作者功能，在移动平台上向所有用户免费开放，这一消息无疑在AI…

王浩然
2025年6月3日
000
AI前沿

企业现在可以借助强化学习微调OpenAI的o4-mini推理模型‌

OpenAI近日在其面向开发者的社交媒体账号上宣布，企业用户现在可以利用强化学习微调（Reinforcement Fine-Tuning, RFT）功能，定制化OpenAI全新的o…

王浩然
2025年5月10日
000
AI前沿

智能体 AI 智能手机的企业级应用：字节跳动原型机背后的机遇与挑战

字节跳动与中兴于 12 月 2 日联合推出的智能体 AI 智能手机原型机（中兴努比亚 M153，搭载字节跳动豆包大模型），虽因消费者隐私担忧被迫缩减部分功能，却揭示了更深层的行业趋…

王浩然
2025年12月11日
000
AI前沿

著名AI研究者创立争议性初创公司：旨在全面取代人类工作者

在人工智能（AI）技术日新月异的今天，一位享誉业界的AI研究者近日宣布创立了一家引发广泛争议的初创公司。这家名为“全替智能”（All-Replace Intelligence）的企…

王浩然
2025年4月21日
000
AI前沿

Anthropic 首席执行官发表 15,000 字赞颂人工智能，充满技术乐观主义

Anthropic 首席执行官 Dario Amodei 希望你知道，他并不是人工智能“末日论者”。至少，这是我对 Amodei 上周五晚间在其博客上发表的一篇约 15,000 …

点点
2024年10月13日
000
AI前沿

英伟达鲁宾：机架级加密与企业人工智能安全

在人工智能（AI）迅猛发展并深度融入企业业务的当下，安全问题愈发成为关注焦点。英伟达的鲁宾针对企业 AI 安全提出了机架级加密这一创新理念，为解决企业在 AI 应用过程中的安全隐患…

王浩然
2026年1月17日
000