AI领域的颠覆者：DeepSeek如何以低成本重塑AI开发范式‌

王浩然 • 2025年6月16日上午10:00 • AI前沿 • 247 views

今年1月，当DeepSeek发布其R1模型时，这不仅仅是一次普通的AI公告，而是一次震撼整个科技行业的里程碑事件，迫使行业领袖重新审视他们对AI开发的基本方法。

DeepSeek的成就之所以引人注目，并非因为它开发了全新的能力，而在于它以极低的成本实现了与科技巨头相当的结果。事实上，DeepSeek并没有做出前所未有的事情；它的创新源于追求不同的优先级。因此，我们现在正经历着沿着效率和计算两条并行轨道的快速发展。

随着DeepSeek即将发布其R2模型，并同时面临美国可能实施的更严厉的芯片限制，了解其如何引起如此多关注变得尤为重要。

DeepSeek的崛起既突然又剧烈，它吸引了所有人的注意，因为它展示了即使在重大限制下，创新也能蓬勃发展。面对美国出口管制限制获取尖端AI芯片的局面，DeepSeek被迫寻找AI进步的替代途径。

当美国公司通过更强大的硬件、更大的模型和更好的数据来追求性能提升时，DeepSeek专注于优化可用资源。它以卓越的执行力实施了已知的想法——而执行已知事物并做好它本身就是一种创新。

这种以效率为先的心态取得了令人惊叹的成果。据报道，DeepSeek的R1模型仅以OpenAI运营成本的5%至10%就达到了相当的能力。据报道，DeepSeek前代V3模型的最终训练成本仅为600万美元，与前特斯拉AI科学家安德烈·卡帕西（Andrej Karpathy）所描述的美国竞争对手花费的数亿至数十亿美元相比，这简直是个“笑话般的预算”。更引人注目的是，据称OpenAI花费了5亿美元训练其最近的“Orion”模型，而DeepSeek仅以560万美元就取得了更优的基准测试结果，这不到OpenAI投资的1.2%。

如果你认为这些令人难以置信的成果是在DeepSeek因无法获得先进AI芯片而处于严重劣势的情况下取得的，那么我必须告诉你，这个叙述并不完全准确（尽管它听起来是个好故事）。最初的美国出口管制主要集中在计算能力上，而不是内存和网络——这是AI开发的两个关键组件。

这意味着DeepSeek能够获取的芯片并非劣质芯片；它们的网络和内存能力允许DeepSeek在多个单元上并行化操作，这是高效运行其大型模型的关键策略。

此外，中国推动国家控制整个AI基础设施垂直堆栈，这加速了许多西方观察者未曾预料的创新。DeepSeek的进步是AI发展的必然部分，但它们将已知的进步提前了几年，这是非常令人惊叹的。

除了硬件优化外，DeepSeek在训练数据方面的做法也与传统西方实践有所不同。DeepSeek没有仅依赖网络抓取的内容，而是据称利用了大量合成数据和其他专有模型的输出。这是模型蒸馏的一个经典例子，即从非常强大的模型中学习的能力。然而，这种方法引发了关于数据隐私和治理的问题，这可能让西方企业客户感到担忧。尽管如此，这凸显了DeepSeek整体上注重结果而非过程的务实态度。

有效利用合成数据是一个关键差异点。在训练大型模型时，合成数据可以非常有效，但必须小心；一些模型架构比其他架构更好地处理合成数据。例如，像DeepSeek的混合专家（MoE）架构的基于Transformer的模型在整合合成数据时往往更稳健，而像早期Llama模型中使用的更传统的密集架构在训练过多合成内容时可能会出现性能下降甚至“模型崩溃”。

这种架构敏感性很重要，因为合成数据引入了与现实世界数据不同的模式和分布。当模型架构不能很好地处理合成数据时，它可能会学习合成数据生成过程中存在的捷径或偏差，而不是可泛化的知识。这可能导致在现实世界任务上的性能下降，在面对新情况时出现幻觉或脆弱性增加。

然而，据报道，DeepSeek的工程团队从最早的规划阶段起就专门考虑了合成数据集成来设计其模型架构。这使该公司能够利用合成数据的成本效益而不会牺牲性能。

这一切为何重要？除了股市之外，DeepSeek的出现已经触发了行业领袖之间的实质性战略转变。

以OpenAI为例。萨姆·奥特曼（Sam Altman）最近宣布了公司自2019年以来首次发布“开源”语言模型的计划。对于一个以专有系统为基础建立业务的公司来说，这是一个相当显著的转变。看来，DeepSeek的崛起以及Llama的成功对OpenAI的领导层产生了巨大影响。就在DeepSeek出现的一个月后，奥特曼承认OpenAI在开源AI方面“站在了历史的错误一边”。

据报道，OpenAI每年在运营上花费70亿至80亿美元，来自像DeepSeek这样高效替代方案的经济压力已经不容忽视。正如AI学者李开复直言不讳地指出：“你每年花费70亿或80亿美元，造成巨大损失，而这里有一个竞争对手带着一个免费的开源模型进来了。”这迫使OpenAI做出改变。

这种经济现实促使OpenAI寻求高达400亿美元的融资轮，使公司估值达到前所未有的3000亿美元。但即使拥有巨额资金可用，根本性挑战依然存在：OpenAI的方法比DeepSeek的方法资源密集得多。

DeepSeek加速的另一个重要趋势是向“测试时计算”（TTC）的转变。随着主要AI实验室已经对互联网上大部分可用的公共数据进行了模型训练，数据稀缺性正在减缓预训练的进一步改进。

为了解决这个问题，DeepSeek宣布与清华大学合作，实现“自我原则性批判调优”（SPCT）。这种方法训练AI开发自己的内容评判规则，然后使用这些规则提供详细批判。该系统包括一个内置的“评判者”，实时评估AI的答案，将响应与核心规则和质量标准进行比较。

这一发展是AI系统自主自我评价和改进运动的一部分，其中模型利用推理时间来改进结果，而不是仅仅在训练期间使模型变得更大。DeepSeek称其系统为“DeepSeek-GRM”（通用奖励建模）。但与其模型蒸馏方法一样，这既充满希望又存在风险。

例如，如果AI开发了自己的评判标准，那么这些原则可能会偏离人类价值观、道德或情境。规则可能会变得过于僵化或存在偏见，优化风格而非实质，和/或强化错误假设或幻觉。此外，如果没有人类参与，如果“评判者”有缺陷或不一致，就会出现问题。这是一种AI与自己对话，而没有稳健的外部基础的情况。除此之外，用户和开发者可能不理解AI为何得出某个结论——这引发了一个更大的担忧：是否应该允许AI仅基于自己的逻辑来决定什么是“好”或“正确”？这些风险不容忽视。

同时，这种方法正在获得牵引力，因为DeepSeek再次建立在他人工作成果的基础上（想想OpenAI的“批判和修订”方法、Anthropic的宪法AI或关于自我奖励代理的研究）来创建可能是商业努力中首个全栈应用SPCT的实例。

这可能标志着AI自主性的强大转变，但仍然需要严格的审计、透明度和保障措施。这不仅仅是关于模型变得更智能，而是当它们开始在没有人类限制的情况下自我批判时，它们仍然保持一致、可解释和值得信赖。

因此，综合考虑以上因素，DeepSeek的崛起标志着AI行业向并行创新轨道的更广泛转变。虽然公司继续为下一代能力构建更强大的计算集群，但也将通过软件工程和模型架构改进来寻找效率增益，以抵消AI能源消耗的挑战，这远远超过了发电能力。

公司正在注意到这一点。例如，微软已在全球范围内多个地区停止了数据中心开发，转向更加分布式、高效的基础设施方法。虽然该公司仍计划在本财年投资约800亿美元用于AI基础设施，但它正在重新分配资源，以响应DeepSeek向市场引入的效率增益。

Meta也做出了回应，发布了其最新的Llama 4模型系列，标志着它首次使用MoE架构。Meta在发布Llama 4时特意将DeepSeek模型纳入其基准比较中，尽管没有详细公开比较两者的详细性能结果。这种直接的竞争定位表明了不断变化的格局，其中中国AI模型（阿里巴巴也在参与）现在被硅谷公司视为值得比较的基准。

在如此短的时间内发生如此多的变化，颇具讽刺意味的是，美国旨在保持美国AI主导地位的制裁可能反而加速了它们试图遏制的创新。通过限制材料获取，DeepSeek被迫开辟了一条新道路。

展望未来，随着行业在全球范围内继续发展，所有参与者的适应能力将是关键。政策、人员和市场反应将继续改变游戏规则——无论是消除AI扩散规则、新的技术购买禁令还是其他完全不同的东西。值得关注的是我们如何从彼此身上学习以及如何做出回应。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-ling-yu-de-dian-fu-zhe-deepseek-ru-he-yi-di-cheng-ben

Like (0)

王浩然作者

0 0

AI红队：构建更安全、更智能模型的当下行动‌

Previous 2025年6月15日

‌NVIDIA助力德国在欧洲AI制造竞赛中领先‌

Next 2025年6月16日

AI前沿

RAGEN：一种训练可靠AI代理的新方法

在人工智能（AI）领域，2025年曾被众多专家预测为AI代理的元年。然而，现实情况却并非如此。尽管基于大型语言模型（LLMs）的AI代理在实验室中取得了显著进展，但在实际企业应用中…

王浩然
2025年4月24日
000
AI前沿

快攻人工智能：Databricks 如何帮助步行者队将机器学习成本削减 12,000X% 同时加快洞察速度

对于篮球运动来说，数据可能就是一切——但对于步行者体育和娱乐公司（PS&E）来说，有关球迷的数据同样有价值。然而，尽管印第安纳波利斯步行者队(NBA)、印第安…

王浩然
2025年2月12日
000
AI前沿

电商网络安全：守护客户数据是关乎生存的核心使命

在电商行业，商家手握的不仅是销售业绩，更是客户财务与个人信息的 “密钥”—— 从姓名、信用卡详情到邮箱、收货地址，这些数据在交易瞬间托付给商家，也让网络安全从过去 IT 部门的 “…

王浩然
2025年10月17日
000
AI前沿

通过官方API越狱ChatGPT及其他闭源AI模型的新研究

根据最新研究，ChatGPT和其他主流AI模型可以通过官方微调渠道被重新训练，从而绕过安全规则，提供关于如何实施恐怖行动、进行网络犯罪或其他”被禁止”行为的…

王浩然
2025年7月24日
000
AI前沿

Kling AI深度评测：逼真到令人担忧的AI视频生成工具

当你还在幻想不用相机、演员和复杂剪辑软件就能把创意变成电影质感的视频时，AI技术已经让这个梦想照进了现实。2024年由快手科技推出的Kling AI，正是这样一款能将文字、图片甚至…

王浩然
6天前
000
AI前沿

AI医疗工具对女性和弱势群体存在诊疗偏见：系统性缺陷亟待解决‌

最新研究表明，基于人工智能的医疗诊断系统正持续输出带有性别和种族偏见的诊疗建议，这一现象在2025年9月发布的跨机构研究报告中得到确证。这份涵盖北美23家顶级医疗机构的审计报告揭示…

王浩然
2025年9月22日
000
AI前沿

OpenAI 推出新认证标准，瞄准 AI 技能缺口，重塑人才培养与就业生态

面对生成式 AI 快速普及与劳动力 AI 能力不匹配的现状，正式推出以 “AI 基础（AI Foundations）” 为核心的认证计划，同时构建 AI 就业平台，目标在 2030…

王浩然
2025年12月13日
000
AI前沿

如何利用生成工具推动 Glean 筹集 2.6 亿美元：GraphRAG

当创新型企业搜索公司 Glean 的销售代表需要为一次重要的客户会议做准备时，他们求助于自己强大的生成式 AI工具。几分钟之内，系统就梳理了多年的电子邮件、Slack 消息和通话录…

王浩然
2024年9月15日
000
AI前沿

麻省理工学院首次推出受大型语言模型启发的方法，用于教授机器人新技能

麻省理工学院本周展示了一种训练机器人的新模型。与用于教机器人新任务的标准数据集不同，该方法更具规模性，模仿用于训练大型语言模型 (LLM) 的大量信息。研究人员指出，模仿学习（即…

王浩然
2024年11月3日
000
AI前沿

潜藏的内部威胁：AI 助手成为新型攻击面的应对策略

2025 年 11 月 5 日，行业安全报告指出，企业董事会对大语言模型与 AI 助手提升生产力的需求日益迫切，但 AI 助手具备的网页浏览、用户上下文记忆、业务应用连接等核心功能…

王浩然
2025年11月10日
000
AI前沿

深度求索V3.2扩展模型震撼发布：API价格腰斩至每千token不足3美分‌

中国人工智能初创企业深度求索（DeepSeek）近日在生成式AI领域投下重磅炸弹，其最新发布的V3.2扩展模型不仅将API调用成本直接砍半至每千token仅2.99美分，更通过多项…

王浩然
2025年10月3日
000
AI前沿

英伟达推出全栈机器人平台：引领机器人领域新变革

在机器人技术日新月异的发展进程中，英伟达凭借其在图形处理和人工智能领域的深厚积累，推出了全栈机器人平台，这一创举无疑为机器人行业注入了新的活力，引领着机器人领域迈向新的发展阶段。该…

王浩然
2026年1月8日
000
AI前沿

“未来的你”人工智能让你遇见未来的自己

该系统使用大型语言模型，根据信息生成可关联的虚拟版本

点点
2024年10月8日
000
AI前沿

Altman 花了 3 个亿巨资，证明「国家发钱」没有用

人工智能的风刮了两年，在 AI 普及之前，工作的「存在主义危机」先一步到来，互联网上关于人工智能何时能取代人的工作，能取代什么工作的讨论层出不穷。在人工智能的道德伦理边界的讨论上，…

点点
2024年10月7日
000
AI前沿

Persado 联合创始人兼总裁 Assaf Baciu – 访谈系列

Assaf Baciu 拥有近二十年为市场领先的 SaaS 组织制定企业战略和产品方向的经验。作为Persado的联合创始人兼总裁，他推动了 Persado 不断增长的产品组合的发…

点点
2024年10月24日
000
AI前沿

AI 芯片短缺：2025 年企业 CTO 面临的严峻挑战

在人工智能（AI）飞速发展的时代，AI 芯片作为这一技术浪潮的核心驱动力，其重要性不言而喻。然而，步入 2025 年，企业 CTO 们却不得不面对一个棘手的难题 ——AI 芯片短缺…

王浩然
2026年1月8日
000
AI前沿

深度伪造与语音克隆：AI冒充诈骗激增148%的警示录‌

在人工智能技术狂飙突进的今天，一场新型犯罪浪潮正以148%的惊人增速席卷全球。根据身份盗窃资源中心（ITRC）最新报告，2024年4月至2025年3月期间，利用深度伪造（Deepf…

王浩然
2025年9月8日
000
AI前沿

英国租房科技初创公司Dwelly获6900万英镑融资，AI驱动重塑房产管理行业格局

在英国的房产租赁市场，一场由科技驱动的变革正在悄然发生。近日，伦敦租房平台Dwelly宣布完成6900万英镑（约合9300万美元）的融资，这笔资金将成为其加速扩张的重要燃料，推动这…

王浩然
2026年2月28日
000
AI前沿

Anthropic 首席执行官发表 15,000 字赞颂人工智能，充满技术乐观主义

Anthropic 首席执行官 Dario Amodei 希望你知道，他并不是人工智能“末日论者”。至少，这是我对 Amodei 上周五晚间在其博客上发表的一篇约 15,000 …

点点
2024年10月13日
000
AI前沿

Basil Faruqui，BMC Software：如何制定数据和 AI 战略

BMC Software 的解决方案营销总监 Basil Faruqui 讨论了 DataOps、数据编排的重要性以及 AI 在优化复杂工作流自动化以实现业务成功方面的作用。 BM…

点点
2024年9月28日
000

发表回复

Please Login to Comment

AI领域的颠覆者：DeepSeek如何以低成本重塑AI开发范式‌

相关推荐

发表回复