DeepSeek R1 在强化学习方面的大胆押注:它如何以 3% 的成本超越 OpenAI

DeepSeek R1 在强化学习方面的大胆押注:它如何以 3% 的成本超越 OpenAI

DeepSeek R1 于周一发布,在 AI 社区引起了轩然大波,颠覆了人们对实现尖端 AI 性能所需条件的假设。与 OpenAI 的 o1 相比,这种开源模式的成本仅为 o1 的 3%-5%,不仅吸引了开发人员,也挑战企业重新思考其 AI 战略。

该模型已飙升至 HuggingFace 上下载量最高的模型(截至撰写本文时,下载量已达 109,000 次)——开发人员纷纷尝试并试图了解它对他们的 AI 开发意味着什么。用户评论说,DeepSeek 的配套搜索功能(您可以在DeepSeek 的网站上找到)现在优于 OpenAI 和 Perplexity 等竞争对手,并且只有 Google 的 Gemini Deep Research 可以与之匹敌。

这对企业 AI 战略的影响是深远的:随着成本降低和开放访问,企业现在可以选择替代 OpenAI 等昂贵的专有模型。DeepSeek 的发布可能会使尖端 AI 功能的访问变得民主化,使较小的组织能够在 AI 军备竞赛中有效竞争。

本文重点讲述 DeepSeek 如何实现这一壮举,以及这对大量 AI 模型用户意味着什么。对于开发 AI 驱动解决方案的企业来说,DeepSeek 的突破挑战了 OpenAI 的主导地位假设,并为具有成本效益的创新提供了蓝图。DeepSeek 的“如何”实现这一壮举才是本文最具教育意义的。

DeepSeek 的突破:转向纯强化学习

11 月,DeepSeek 宣布其性能已超越 OpenAI 的 o1,成为头条新闻,但当时它只提供了有限的 R1-lite 预览模型。随着周一 R1 的完整发布和随附的技术论文,该公司透露了一项令人惊讶的创新:刻意摆脱了在训练大型语言模型 (LLM) 中广泛使用的传统监督微调 (SFT) 过程。

SFT 是 AI 开发中的一个标准步骤,涉及在精选数据集上训练模型以教授逐步推理,通常称为思维链 (CoT)。它被认为是提高推理能力的关键。然而,DeepSeek 挑战了这一假设,完全跳过了 SFT,而是选择依靠强化学习 (RL) 来训练模型。

这一大胆举措迫使 DeepSeek-R1 开发出独立的推理能力,避免了规范数据集经常带来的脆弱性。虽然出现了一些缺陷——导致团队在构建模型的最后阶段重新引入了有限数量的 SFT——但结果证实了根本性的突破:仅凭强化学习就可以带来显着的性能提升。

该公司利用开源技术取得了很大进展——这是一种传统且不足为奇的方式

首先,介绍一下 DeepSeek 是如何取得如今的成就的。DeepSeek 是中国对冲基金 High-Flyer Quant 于 2023 年成立的一家分拆公司,最初是为其专有聊天机器人开发人工智能模型,然后将其发布供公众使用。人们对该公司的具体方法知之甚少,但它很快就将其模型开源,而且该公司极有可能是在 Meta 制作的开放项目(例如 Llama 模型和 ML 库 Pytorch)的基础上构建的。 

为了训练模型,High-Flyer Quant 在美国出口限制之前获得了超过 10,000 块 Nvidia GPU,据报道,尽管存在贸易壁垒,但该公司还是通过其他供应渠道将 GPU 数量扩大到 50,000 块。与 OpenAI、Google 和 Anthropic 等领先的人工智能实验室相比,这相形见绌,这些实验室各自拥有超过 500,000 块 GPU。  

DeepSeek 能够以有限的资源取得有竞争力的成果,这凸显了创造力和足智多谋如何能够挑战培养最先进 LLM 的高成本模式。

尽管有猜测,但 DeepSeek 的全部预算尚不清楚

据 Nvidia 工程师 Jim Fan 称, DeepSeek 花了两个月的时间,花费 558 万美元训练了其基础模型(称为 V3)。虽然该公司尚未透露其使用的确切训练数据(旁注:批评者表示这意味着 DeepSeek 并非真正开源),但现代技术使在网络和开放数据集上进行训练变得越来越容易。估计训练 DeepSeek-R1 的总成本具有挑战性。虽然运行 50,000 个 GPU 意味着大量支出(可能高达数亿美元),但确切数字仍是推测。

但有一点很清楚,那就是 DeepSeek 从一开始就非常具有创新性。去年,有报道称它正在进行一些初步创新,例如混合专家和多头潜在注意力。

DeepSeek-R1 如何实现“顿悟时刻”

DeepSeek-R1 的最终迭代之旅始于一个中间模型 DeepSeek-R1-Zero,该模型使用纯强化学习进行训练。通过完全依赖强化学习,DeepSeek 激励该模型独立思考,奖励正确答案和得出正确答案的逻辑过程。

这种方法导致了一个意想不到的现象:模型开始为更复杂的问题分配额外的处理时间,展示了根据任务难度确定任务优先级的能力。DeepSeek 的研究人员将此描述为“顿悟时刻”,模型本身识别并阐明了解决具有挑战性的问题的新方法(见下面的屏幕截图)。这一里程碑强调了强化学习的强大功能,它可以在不依赖 SFT 等传统训练方法的情况下释放高级推理能力。

DeepSeek R1 在强化学习方面的大胆押注:它如何以 3% 的成本超越 OpenAI

研究人员总结道:“它强调了强化学习的力量和美妙之处:我们不是明确地教模型如何解决问题,而是简单地为它提供正确的激励,它就会自主地开发出先进的解决问题的策略。”

不仅仅是 RL

但模型需要的不仅仅是强化学习。论文接着谈到,尽管强化学习创造了意想不到的强大推理行为,但中间模型 DeepSeek-R1-Zero 确实面临一些挑战,包括可读性差和语言混合(例如从中文开始切换到英文)。所以团队才决定创建一个新模型,也就是最终的 DeepSeek-R1 模型。这个模型同样基于 V3 基础模型,首先注入了有限的 SFT——专注于“少量长 CoT 数据”或所谓的冷启动数据,以解决一些挑战。之后,它经历了与 R1-Zero 相同的强化学习过程。论文随后谈到了 R1 如何经历了最后几轮微调。

后果

一个问题是,为什么这个发布会引发如此多的惊讶。开源模式并不是什么新鲜事物。开源模式背后有着巨大的逻辑和动力。它们的免费成本和可塑性是我们最近报道这些模式将在企业中获胜的原因。

例如,Meta 的开放权重模型 Llama 3 去年大受欢迎,因为开发人员希望拥有自己的自定义模型,因此对其进行了微调。同样,现在 DeepSeek-R1 已被用来将其推理提炼为一系列其他小得多的模型 – 不同之处在于 DeepSeek 提供了业界领先的性能。例如,这包括在手机上运行该模型的微型版本。

DeepSeek-R1 不仅比领先的开源替代方案 Llama 3 表现更好,而且还能透明地展示其答案的整个思路。Meta 的 Llama 并未被指示默认这样做;它需要 Llama 积极提示才能这样做。

这种透明度也给 OpenAI 带来了公关上的污点,该公司迄今为止一直向用户隐藏其思路,理由是出于竞争原因,并且当模型出错时不会让用户感到困惑。透明度使开发人员能够精确定位和解决模型推理中的错误,从而简化定制以更有效地满足企业需求。

对于企业决策者来说,DeepSeek 的成功凸显了人工智能领域的广泛转变:更精简、更高效的开发实践越来越可行。组织可能需要重新评估与专有人工智能提供商的合作关系,考虑当​​开源替代方案可以提供相当甚至更优的结果时,这些服务相关的高成本是否合理。

可以肯定的是,没有大幅领先

虽然 DeepSeek 的创新具有开创性,但它绝没有建立起绝对的市场领先地位。由于它发表了自己的研究成果,其他模型公司将从中学习并加以适应。法国开源模型公司 Meta 和 Mistral 可能落后了一步,但可能只需几个月他们就能赶上来。正如 Meta 的首席研究员 Yann Lecun所说:“这个想法是每个人都能从其他人的想法中获利。没有人‘超越’任何人,也没有哪个国家‘输给’另一个国家。没有人垄断好的想法。每个人都在向其他人学习。”因此,执行力至关重要。

最终,最大的赢家是消费者、初创公司和其他用户,因为 DeepSeek 的产品将继续推动使用这些模型的成本接近于零(再次排除运行推理模型的成本)。这种快速的商品化可能会给在专有基础设施上投入巨资的领先 AI 提供商带来挑战——事实上,是巨大的痛苦。正如许多评论员所说,包括 Meta 的投资者和前高管 Chamath Palihapitiya,这可能意味着OpenAI 和其他公司多年的运营支出和资本支出将被浪费。

关于使用 DeepSeek-R1 模型是否合乎道德,有很多评论,因为中国法律赋予了该模型偏见,例如,它不应该回答有关中国政府在天安门广场残酷镇压的问题。尽管存在偏见方面的道德担忧,但许多开发人员认为这些偏见在实际应用中并不常见,而且可以通过微调来缓解。此外,他们指出,OpenAI 和其他公司的模型也存在不同但类似的偏见。尽管 Meta 的 Llama 数据集未公开,存在隐藏的偏见,并因此遭到诉讼,但它已成为一种流行的开放模型。

OpenAI 大笔投资的投资回报率存在诸多疑问

这一切都引发了人们对 OpenAI、微软等公司所实施的投资计划的质疑。OpenAI耗资 5000 亿美元的星际之门项目反映了其致力于建设大型数据中心来支持其先进模型的承诺。在甲骨文和软银等合作伙伴的支持下,这一战略的前提是相信实现通用人工智能 (AGI) 需要前所未有的计算资源。然而,DeepSeek 以极低的成本展示了高性能模型,这对这种方法的可持续性提出了挑战,让人怀疑 OpenAI 能否从如此巨大的投资中获得回报。

企业家兼评论员 Arnaud Bertrand捕捉到了这一动态,将中国节俭、分散的创新与美国对集中、资源密集型基础设施的依赖进行了对比:“这是为了让世界意识到,尽管中国努力阻止这种情况发生,但中国在技术和创新方面已经赶上——甚至在某些领域超过了——美国。”事实上,昨天,另一家中国公司字节跳动宣布推出 Doubao-1.5-pro,其中包括一种“深度思考”模式,在 AIME 基准上超越了 OpenAI 的 o1。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/deepseek-r1-zai-qiang-hua-xue-xi-fang-mian-di-da-dan-ya-zhu

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年1月27日
Next 2025年1月28日

相关推荐

发表回复

Please Login to Comment