超越基准：DeepSeek-R1 和 o1 在实际任务中的表现如何

王浩然 • 2025年2月2日下午7:00 • AI前沿 • 473 views

DeepSeek-R1无疑引起了很多兴奋和担忧，尤其是对于 OpenAI 的竞争对手模型 o1。因此，我们在几个简单的数据分析和市场研究任务上对它们进行了并排比较测试。

为了让这些模型处于同等地位，我们使用了 Perplexity Pro Search，它现在支持 o1 和 R1。我们的目标是超越基准，看看这些模型是否真的可以执行需要从网络上收集信息、挑选出正确的数据以及执行需要大量手动工作的简单任务的临时任务。

这两种模型都令人印象深刻，但是当提示缺乏特异性时就会出错。o1 在推理任务上稍好一些，但 R1 的透明度使其在犯错的情况下（而且会有很多）具有优势。

以下是我们一些实验的细目以及 Perplexity 页面的链接，您可以自行查看结果。

计算网络投资回报率

我们的第一个测试是评估模型是否可以计算投资回报率 (ROI)。我们考虑了这样一种场景：用户在 2024 年 1 月至 12 月的每个月第一天向七大科技公司（Alphabet、亚马逊、苹果、Meta、微软、Nvidia、特斯拉）投资了 140 美元。我们要求模型计算当前日期的投资组合价值。

为了完成这项任务，模型必须提取每月第一天的 Mag 7 价格信息，将每月的投资平均分配给各只股票（每只股票 20 美元），然后将其加起来并根据当前日期的股票价值计算投资组合价值。

在这个任务中，两个模型都失败了。o1返回了 2024 年 1 月和 2025 年 1 月的股票价格列表以及计算投资组合价值的公式。然而，它未能计算出正确的值，基本上说不会有投资回报率。另一方面，R1 犯了一个错误，只在 2024 年 1 月投资并计算 2025 年 1 月的回报。

然而，有趣的是模型的推理过程。虽然 o1 没有提供太多关于它如何得出结果的细节，但R1 的推理过程表明它没有正确的信息，因为 Perplexity 的检索引擎未能获得股票价格的月度数据（许多检索增强生成应用程序失败不是因为模型缺乏能力，而是因为检索不好）。事实证明，这是一个重要的反馈，引导我们进行下一个实验。

推理文件内容

我们决定进行与之前相同的实验，但不是提示模型从网络上检索信息，而是决定将其提供在文本文件中。为此，我们将雅虎财经中每只股票的月度数据复制粘贴到一个文本文件中，并将其提供给模型。该文件包含每只股票的名称以及 HTML 表，其中包含 2024 年 1 月至 12 月每个月第一天的价格和最后记录的价格。数据没有清理，以减少手动工作量并测试模型是否可以从数据中挑选出正确的部分。

同样，两个模型都未能提供正确答案。o1似乎已从文件中提取了数据，但建议使用 Excel 等工具手动进行计算。推理轨迹非常模糊，不包含任何有用的信息来排除模型故障。R1也失败了，没有提供答案，但推理轨迹包含大量有用信息。

例如，很明显，该模型已经正确解析了每只股票的 HTML 数据，并能够提取正确的信息。它还能够逐月计算投资，将它们相加，并根据表格中的最新股价计算最终价值。然而，最终价值仍留在其推理链中，未能进入最终答案。该模型还被 Nvidia 图表中的一行弄糊涂了，该行标记了该公司在 2024 年 6 月 10 日的 10:1 股票分割，最终错误地计算了投资组合的最终价值。

再次强调，真正的区别不在于结果本身，而是调查模型如何得出响应的能力。在这种情况下，R1 为我们提供了更好的体验，让我们了解模型的局限性，以及我们如何重新制定提示并格式化数据以在未来获得更好的结果。

通过网络比较数据

我们进行的另一项实验要求模型比较四位 NBA 顶级中锋的数据，并确定哪一位中锋在 2022/2023 赛季到 2023/2024 赛季的投篮命中率 (FG%) 提升幅度最大。这项任务要求模型对不同的数据点进行多步推理。提示中的陷阱在于，它包括了 2023 年刚刚以新秀身份进入联盟的 Victor Wembanyama。

这个提示的检索要容易得多，因为球员的数据在网络上被广泛报道，并且通常包含在他们的维基百科和 NBA 个人资料中。两个模型都回答正确（如果你好奇的话，答案是扬尼斯），尽管根据他们使用的来源，他们的数据略有不同。然而，他们没有意识到温比不符合比较条件，并收集了他在欧洲联赛期间的其他数据。

在答案中，R1提供了更好的结果细分，并附上了比较表以及其答案所用来源的链接。添加的上下文使我们能够更正提示。在我们修改提示并指定我们正在寻找 NBA 赛季的 FG% 之后，模型正确地将 Wemby 从结果中排除。

最终判决

推理模型是强大的工具，但要完全信任它们执行任务还有很长的路要走，尤其是随着大型语言模型 (LLM) 应用程序的其他组件不断发展。从我们的实验来看，o1 和 R1 仍然会犯一些基本的错误。尽管它们表现出令人印象深刻的结果，但它们仍然需要一些指导才能给出准确的结果。

理想情况下，推理模型应该能够在缺少任务信息时向用户解释。或者，模型的推理轨迹应该能够引导用户更好地理解错误并纠正提示，以提高模型响应的准确性和稳定性。在这方面，R1 占了上风。希望未来的推理模型，包括 OpenAI即将推出的 o3 系列，能够为用户提供更多的可见性和控制力。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/chao-yue-ji-zhun-deepseekr1-he-o1-zai-shi-ji-ren-wu-zhong

DeepSeek-R1 OpenAI

Like (0)

王浩然作者

0 0

前 Google、Meta 领导人推出 Palona AI，为非技术型企业提供个性化、情感化的客服代理

Previous 2025年2月2日

Mistral Small 3 将开源 AI 带给大众——更小、更快、更便宜

Next 2025年2月2日

AI前沿

据报道，前 OpenAI 首席技术官 Mira Murati 正在为一家新的 AI 初创公司筹集资金

据路透社报道，上个月宣布离职的OpenAI 首席技术官米拉·穆拉蒂 (Mira Murati)正在为一家新的人工智能初创公司筹集风险投资资金。据报道，这家初创公司将专注于构建基于…

王浩然
2024年10月20日
000
AI前沿

Zoom 的定制 AI 头像工具可能存在风险

Zoom 希望将你变成一个由 AI 动画制作的、逼真的头像——但要等到明年某个时候。今天，Zoom 在年度开发者大会上宣布了即将推出的功能，该功能将把用户录制的自己的视频片段转换…

王浩然
2024年10月12日
000
AI前沿

OpenAI：每周服务用户量突破4亿

OpenAI，这家引领人工智能领域发展的先锋企业，近期宣布其每周服务用户量已突破4亿大关。这一里程碑式的成就，标志着OpenAI的技术和服务在全球范围内受到了广泛认可和热烈欢迎。 …

王浩然
2025年2月24日
000
AI前沿

AI伴侣：人们的实际需求远低于预期

在当今社会，人工智能（AI）技术的快速发展让我们对其在各个领域的应用充满了期待，尤其是在情感陪伴方面。然而，一项由Anthropic公司发布的最新报告却揭示了一个出人意料的真相：人…

王浩然
2025年7月1日
000
AI前沿

解锁生成式 AI 潜力的关键：数据就绪度

麻省理工学院（MIT）近期研究指出，95% 的生成式 AI（GenAI）试点项目无法推进至实际生产阶段，这一结论引发广泛关注，也让企业高管对 GenAI 投资持谨慎态度，甚至有人认…

王浩然
2025年10月17日
000
AI前沿

Token Monster：智能整合多模型与工具，简化LLM选择‌

在人工智能领域，大型语言模型（LLM）的选择一直是个令人头疼的问题。每个模型都有其独特的优势和应用场景，但对于非专业人士或资源有限的企业来说，如何挑选最适合自己的LLM往往是一项复…

王浩然
2025年6月1日
000
AI前沿

GitHub 的 Copilot 登陆 Apple 的 Xcode

GitHub 在 Universe 大会上宣布了一系列重要新产品，包括完全使用 AI 编写应用程序的 Spark 项目，以及对其 Copilot 服务的多模型支持。但 Copilo…

王浩然
2024年10月30日
000
AI前沿

inDrive首席技术官Yuri Misnik：以AI为底层引擎，打造公平且适配全球的超级出行平台

在全球出行与城市服务赛道，inDrive凭借独特的点对点议价模式脱颖而出，而推动这家企业技术迭代与全球化扩张的核心人物，正是首席技术官Yuri Misnik。拥有二十余年跨领域技术…

王浩然
2026年4月12日
000
AI前沿

人工智能投资的新标杆：Swift Ventures 推出将言论与行动区分开的系统

Swift Ventures今天公布了一项新的人工智能公司指数，创建了第一个系统的评分系统，用于识别真正在人工智能技术方面进行投资而不是仅仅在财报电话会议上谈论的上市公司。该风险…

王浩然
2024年12月10日
000
AI前沿

Anthropic的Claude聊天机器人：疑似采用Brave浏览器驱动其网页搜索功能

在人工智能领域，每一次技术创新都可能引发行业的广泛关注。近日，Anthropic公司旗下的Claude聊天机器人被曝出疑似采用Brave浏览器作为其网页搜索功能的强大后盾。这一消息…

王浩然
2025年3月24日
000
AI前沿

特斯拉 Cybercab 机器人出租车问世——售价可能不到 3 万美元

特斯拉终于发布了 Cybercab 机器人出租车。Cyber cab在公司的We, Robot 活动上亮相，看起来像一款更小、更时尚的双座 Cybertruck——该公…

点点
2024年10月13日
000
AI前沿

OpenAI AgentKit：让 AI 智能体开发从 “技术难题” 变为 “人人可及”

当开发者还在为搭建一个能自主完成多步任务的 AI 智能体而苦恼 —— 既要整合碎片化的模型 API、编写复杂的编排脚本，又要反复调试第三方工具连接与性能评估框架时，OpenAI 在…

王浩然
2025年10月12日
000
AI前沿

从合规到信任：Trustible CEO解读AI治理的落地路径与未来趋势

当生成式AI的浪潮席卷全球企业，当欧盟AI法案、各国监管政策密集出台，AI治理不再是一个停留在PPT上的概念，而是决定企业能否安全、可持续地拥抱AI技术的核心命题。在这样的背景下，…

王浩然
2026年2月16日
000
AI前沿

Salesforce 首席执行官 Marc Beinoff 抨击 Microsoft Copilot 为“Clippy 2.0”

“Clippy” 当然是微软1996 年推出的 Clippit 虚拟屏幕 Word 和 Office 对话助手的流行昵称。虽然现在人们以它可爱的表情和大眼睛的眼光看待它，但在 20…

王浩然
2024年10月19日
000
AI前沿

ChatGPT 增加了更多。PC 和Mac 应用程序集成，更接近于驾驶你的计算机

OpenAI 扩大了其桌面应用程序可兼容的应用程序数量，包括允许高级语音模式与其他应用程序协同工作，并且正在逐渐接近使用计算机的 ChatGPT。这款桌面应用程序于 …

王浩然
2024年12月20日
000
AI前沿

“钓鱼卖房”：AI介入房产行业引发信任危机与行业变局

当人们在网上刷到一套外观精致、内饰完美的房源时，可能不会想到，屏幕里的“梦中情屋”或许只是AI制造的泡影。如今，房产行业正遭遇“钓鱼卖房”（Housefishing）的信任危机——…

王浩然
2026年3月27日
000
AI前沿

书评：《深度学习速成课：基于项目实践的人工智能入门指南》

在人工智能技术飞速普及的当下，市场上不乏深度学习相关的入门书籍，但多数作品要么陷入复杂的数学公式推导，让非技术背景读者望而却步，要么仅停留在理论层面，缺乏可落地的实践指导，难以满足…

王浩然
2025年12月30日
000
AI前沿

OpenAI与AWS达成七年380亿美元云合作：重塑AI与云计算生态格局

2025年，全球AI与云计算领域迎来里程碑式事件——OpenAI正式宣布与亚马逊云服务（AWS）达成一项为期七年、价值高达380亿美元的战略性云合作协议。这一合作不仅创下了AI行业…

王浩然
2025年11月7日
000
AI前沿

从硅基到感知：AI新前沿与人类认知迁移

在人类历史的长河中，技术的每一次飞跃都伴随着深刻的社会变迁。从工业革命到数字革命，每一次技术革命都促使人类在工作方式和思维方式上进行迁移。如今，随着人工智能（AI）技术的迅猛发展，…

王浩然
2025年5月12日
000
AI前沿

HeyGen 联合创始人兼首席执行官 Joshua Xu 访谈系列

Joshua Xu 是HeyGen的联合创始人兼首席执行官，该平台使用户能够轻松地使用 AI 生成的头像和声音制作工作室品质的视频。 2020 年，您与他人共同创立了 HeyGen…

点点
2024年10月9日
000