
今年1月,当DeepSeek发布其R1模型时,这不仅仅是一次普通的AI公告,而是一次震撼整个科技行业的里程碑事件,迫使行业领袖重新审视他们对AI开发的基本方法。
DeepSeek的成就之所以引人注目,并非因为它开发了全新的能力,而在于它以极低的成本实现了与科技巨头相当的结果。事实上,DeepSeek并没有做出前所未有的事情;它的创新源于追求不同的优先级。因此,我们现在正经历着沿着效率和计算两条并行轨道的快速发展。
随着DeepSeek即将发布其R2模型,并同时面临美国可能实施的更严厉的芯片限制,了解其如何引起如此多关注变得尤为重要。
DeepSeek的崛起既突然又剧烈,它吸引了所有人的注意,因为它展示了即使在重大限制下,创新也能蓬勃发展。面对美国出口管制限制获取尖端AI芯片的局面,DeepSeek被迫寻找AI进步的替代途径。
当美国公司通过更强大的硬件、更大的模型和更好的数据来追求性能提升时,DeepSeek专注于优化可用资源。它以卓越的执行力实施了已知的想法——而执行已知事物并做好它本身就是一种创新。
这种以效率为先的心态取得了令人惊叹的成果。据报道,DeepSeek的R1模型仅以OpenAI运营成本的5%至10%就达到了相当的能力。据报道,DeepSeek前代V3模型的最终训练成本仅为600万美元,与前特斯拉AI科学家安德烈·卡帕西(Andrej Karpathy)所描述的美国竞争对手花费的数亿至数十亿美元相比,这简直是个“笑话般的预算”。更引人注目的是,据称OpenAI花费了5亿美元训练其最近的“Orion”模型,而DeepSeek仅以560万美元就取得了更优的基准测试结果,这不到OpenAI投资的1.2%。
如果你认为这些令人难以置信的成果是在DeepSeek因无法获得先进AI芯片而处于严重劣势的情况下取得的,那么我必须告诉你,这个叙述并不完全准确(尽管它听起来是个好故事)。最初的美国出口管制主要集中在计算能力上,而不是内存和网络——这是AI开发的两个关键组件。
这意味着DeepSeek能够获取的芯片并非劣质芯片;它们的网络和内存能力允许DeepSeek在多个单元上并行化操作,这是高效运行其大型模型的关键策略。
此外,中国推动国家控制整个AI基础设施垂直堆栈,这加速了许多西方观察者未曾预料的创新。DeepSeek的进步是AI发展的必然部分,但它们将已知的进步提前了几年,这是非常令人惊叹的。
除了硬件优化外,DeepSeek在训练数据方面的做法也与传统西方实践有所不同。DeepSeek没有仅依赖网络抓取的内容,而是据称利用了大量合成数据和其他专有模型的输出。这是模型蒸馏的一个经典例子,即从非常强大的模型中学习的能力。然而,这种方法引发了关于数据隐私和治理的问题,这可能让西方企业客户感到担忧。尽管如此,这凸显了DeepSeek整体上注重结果而非过程的务实态度。
有效利用合成数据是一个关键差异点。在训练大型模型时,合成数据可以非常有效,但必须小心;一些模型架构比其他架构更好地处理合成数据。例如,像DeepSeek的混合专家(MoE)架构的基于Transformer的模型在整合合成数据时往往更稳健,而像早期Llama模型中使用的更传统的密集架构在训练过多合成内容时可能会出现性能下降甚至“模型崩溃”。
这种架构敏感性很重要,因为合成数据引入了与现实世界数据不同的模式和分布。当模型架构不能很好地处理合成数据时,它可能会学习合成数据生成过程中存在的捷径或偏差,而不是可泛化的知识。这可能导致在现实世界任务上的性能下降,在面对新情况时出现幻觉或脆弱性增加。
然而,据报道,DeepSeek的工程团队从最早的规划阶段起就专门考虑了合成数据集成来设计其模型架构。这使该公司能够利用合成数据的成本效益而不会牺牲性能。
这一切为何重要?除了股市之外,DeepSeek的出现已经触发了行业领袖之间的实质性战略转变。
以OpenAI为例。萨姆·奥特曼(Sam Altman)最近宣布了公司自2019年以来首次发布“开源”语言模型的计划。对于一个以专有系统为基础建立业务的公司来说,这是一个相当显著的转变。看来,DeepSeek的崛起以及Llama的成功对OpenAI的领导层产生了巨大影响。就在DeepSeek出现的一个月后,奥特曼承认OpenAI在开源AI方面“站在了历史的错误一边”。
据报道,OpenAI每年在运营上花费70亿至80亿美元,来自像DeepSeek这样高效替代方案的经济压力已经不容忽视。正如AI学者李开复直言不讳地指出:“你每年花费70亿或80亿美元,造成巨大损失,而这里有一个竞争对手带着一个免费的开源模型进来了。”这迫使OpenAI做出改变。
这种经济现实促使OpenAI寻求高达400亿美元的融资轮,使公司估值达到前所未有的3000亿美元。但即使拥有巨额资金可用,根本性挑战依然存在:OpenAI的方法比DeepSeek的方法资源密集得多。
DeepSeek加速的另一个重要趋势是向“测试时计算”(TTC)的转变。随着主要AI实验室已经对互联网上大部分可用的公共数据进行了模型训练,数据稀缺性正在减缓预训练的进一步改进。
为了解决这个问题,DeepSeek宣布与清华大学合作,实现“自我原则性批判调优”(SPCT)。这种方法训练AI开发自己的内容评判规则,然后使用这些规则提供详细批判。该系统包括一个内置的“评判者”,实时评估AI的答案,将响应与核心规则和质量标准进行比较。
这一发展是AI系统自主自我评价和改进运动的一部分,其中模型利用推理时间来改进结果,而不是仅仅在训练期间使模型变得更大。DeepSeek称其系统为“DeepSeek-GRM”(通用奖励建模)。但与其模型蒸馏方法一样,这既充满希望又存在风险。
例如,如果AI开发了自己的评判标准,那么这些原则可能会偏离人类价值观、道德或情境。规则可能会变得过于僵化或存在偏见,优化风格而非实质,和/或强化错误假设或幻觉。此外,如果没有人类参与,如果“评判者”有缺陷或不一致,就会出现问题。这是一种AI与自己对话,而没有稳健的外部基础的情况。除此之外,用户和开发者可能不理解AI为何得出某个结论——这引发了一个更大的担忧:是否应该允许AI仅基于自己的逻辑来决定什么是“好”或“正确”?这些风险不容忽视。
同时,这种方法正在获得牵引力,因为DeepSeek再次建立在他人工作成果的基础上(想想OpenAI的“批判和修订”方法、Anthropic的宪法AI或关于自我奖励代理的研究)来创建可能是商业努力中首个全栈应用SPCT的实例。
这可能标志着AI自主性的强大转变,但仍然需要严格的审计、透明度和保障措施。这不仅仅是关于模型变得更智能,而是当它们开始在没有人类限制的情况下自我批判时,它们仍然保持一致、可解释和值得信赖。
因此,综合考虑以上因素,DeepSeek的崛起标志着AI行业向并行创新轨道的更广泛转变。虽然公司继续为下一代能力构建更强大的计算集群,但也将通过软件工程和模型架构改进来寻找效率增益,以抵消AI能源消耗的挑战,这远远超过了发电能力。
公司正在注意到这一点。例如,微软已在全球范围内多个地区停止了数据中心开发,转向更加分布式、高效的基础设施方法。虽然该公司仍计划在本财年投资约800亿美元用于AI基础设施,但它正在重新分配资源,以响应DeepSeek向市场引入的效率增益。
Meta也做出了回应,发布了其最新的Llama 4模型系列,标志着它首次使用MoE架构。Meta在发布Llama 4时特意将DeepSeek模型纳入其基准比较中,尽管没有详细公开比较两者的详细性能结果。这种直接的竞争定位表明了不断变化的格局,其中中国AI模型(阿里巴巴也在参与)现在被硅谷公司视为值得比较的基准。
在如此短的时间内发生如此多的变化,颇具讽刺意味的是,美国旨在保持美国AI主导地位的制裁可能反而加速了它们试图遏制的创新。通过限制材料获取,DeepSeek被迫开辟了一条新道路。
展望未来,随着行业在全球范围内继续发展,所有参与者的适应能力将是关键。政策、人员和市场反应将继续改变游戏规则——无论是消除AI扩散规则、新的技术购买禁令还是其他完全不同的东西。值得关注的是我们如何从彼此身上学习以及如何做出回应。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-ling-yu-de-dian-fu-zhe-deepseek-ru-he-yi-di-cheng-ben