
人工智能的发展已经到达了一个关键的转折点。DeepSeek 的突破——无需依赖最先进的芯片即可实现最先进的性能——证明了 12 月 NeurIPS 上许多人已经宣称的内容:人工智能的未来不是投入更多计算来解决问题——而是重新想象这些系统如何与人类和我们的环境协同工作。
作为一名毕业于斯坦福大学的计算机科学家,我见证了人工智能发展的前景和风险,我认为这一刻比 ChatGPT 的首次亮相更具变革性。我们正在进入一些人所说的“推理复兴”。OpenAI的 o1、DeepSeek 的 R1 和其他公司正在从蛮力扩展转向更智能的东西——而且效率空前。
这种转变来得正是时候。在 NeurIPS 主题演讲中,前 OpenAI 首席科学家 Ilya Sutskever宣称“预训练将会终结”,因为虽然计算能力在增长,但我们受到有限互联网数据的限制。DeepSeek 的突破证实了这一观点——这家中国公司的研究人员以极低的成本实现了与 OpenAI o1 相当的性能,这表明创新,而不仅仅是原始计算能力,才是前进的道路。
无需大量预训练的高级人工智能
世界模型正在努力填补这一空白。世界实验室最近筹集了 2.3 亿美元,用于构建像人类一样理解现实的人工智能系统,这与 DeepSeek 的方法相似,他们的 R1 模型表现出“啊哈!”时刻——像人类一样停下来重新评估问题。这些系统受到人类认知过程的启发,有望改变从环境建模到人机交互的一切。
我们看到了早期的成果:Meta 最近对其Ray-Ban 智能眼镜进行了更新,可以与 AI 助手进行连续的情境对话,而无需唤醒词,同时还可以进行实时翻译。这不仅仅是功能更新,它还预览了 AI 如何增强人类能力,而无需大量预先训练的模型。
然而,这种演变也带来了微妙的挑战。虽然 DeepSeek 通过创新的训练技术大幅降低了成本,但这种效率突破却可能导致总体资源消耗增加——这种现象被称为杰文斯悖论,即技术效率的提高往往会导致资源使用增加而不是减少。
对于人工智能而言,更便宜的训练可能意味着更多组织将训练更多模型,从而可能增加净能耗。但 DeepSeek 的创新有所不同:通过证明无需尖端硬件即可实现最先进的性能,他们不仅提高了人工智能的效率,还从根本上改变了我们开发模型的方式。
这种从原始计算能力向智能架构的转变可以帮助我们摆脱杰文斯悖论陷阱,因为焦点从“我们能负担得起多少计算?”转移到“我们能多智能地设计我们的系统?”正如加州大学洛杉矶分校教授 Guy Van Den Broeck 所说,“语言模型推理的总体成本肯定不会下降。”这些系统对环境的影响仍然很大,推动着行业走向更高效的解决方案——这正是 DeepSeek 所代表的创新。
优先考虑高效架构
这种转变需要新的方法。DeepSeek 的成功证明了这样一个事实:未来不是要构建更大的模型,而是要构建更智能、更高效的模型,与人类智能和环境约束相协调。
Meta 的首席人工智能科学家 Yann LeCun设想,未来的系统会像人类一样,花费数天或数周时间思考复杂问题。DeepSeek 的 R1 模型具有暂停和重新考虑方法的能力,代表着朝着这一愿景迈出了一步。虽然资源密集型,但这种方法可能会在气候变化解决方案、医疗保健创新等领域取得突破。但正如卡内基梅隆大学的Ameet Talwalkar明智地警告的那样,我们必须质疑任何声称确定这些技术将引领我们走向何方的人。
对于企业领导者来说,这种转变指明了一条清晰的前进道路。我们需要优先考虑高效的架构。这种架构可以:
- 部署专门的 AI 代理链,而不是单个的大型模型。
- 投资于可优化性能和环境影响的系统。
- 构建支持迭代、人机交互开发的基础设施。
让我兴奋的是:DeepSeek 的突破证明,我们正在走出“越大越好”的时代,进入一个更有趣的时代。随着预训练达到极限,创新型公司找到新方法以更少的投入实现更大的目标,创造性解决方案的广阔空间正在打开。
小型专业代理组成的智能链不仅效率更高,而且还能以我们从未想象过的方式帮助我们解决问题。对于愿意以不同方式思考的初创企业和企业来说,这是我们再次享受人工智能乐趣的时刻,可以打造对人类和地球都有意义的东西。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/qiao-miao-de-jia-gou-sheng-guo-yuan-shi-ji-suan-deepseek-da