
DeepSeek-R1无疑引起了很多兴奋和担忧,尤其是对于 OpenAI 的竞争对手模型 o1。因此,我们在几个简单的数据分析和市场研究任务上对它们进行了并排比较测试。
为了让这些模型处于同等地位,我们使用了 Perplexity Pro Search,它现在支持 o1 和 R1。我们的目标是超越基准,看看这些模型是否真的可以执行需要从网络上收集信息、挑选出正确的数据以及执行需要大量手动工作的简单任务的临时任务。
这两种模型都令人印象深刻,但是当提示缺乏特异性时就会出错。o1 在推理任务上稍好一些,但 R1 的透明度使其在犯错的情况下(而且会有很多)具有优势。
以下是我们一些实验的细目以及 Perplexity 页面的链接,您可以自行查看结果。
计算网络投资回报率
我们的第一个测试是评估模型是否可以计算投资回报率 (ROI)。我们考虑了这样一种场景:用户在 2024 年 1 月至 12 月的每个月第一天向七大科技公司(Alphabet、亚马逊、苹果、Meta、微软、Nvidia、特斯拉)投资了 140 美元。我们要求模型计算当前日期的投资组合价值。
为了完成这项任务,模型必须提取每月第一天的 Mag 7 价格信息,将每月的投资平均分配给各只股票(每只股票 20 美元),然后将其加起来并根据当前日期的股票价值计算投资组合价值。
在这个任务中,两个模型都失败了。o1返回了 2024 年 1 月和 2025 年 1 月的股票价格列表以及计算投资组合价值的公式。然而,它未能计算出正确的值,基本上说不会有投资回报率。另一方面,R1 犯了一个错误,只在 2024 年 1 月投资并计算 2025 年 1 月的回报。

然而,有趣的是模型的推理过程。虽然 o1 没有提供太多关于它如何得出结果的细节,但R1 的推理过程表明它没有正确的信息,因为 Perplexity 的检索引擎未能获得股票价格的月度数据(许多检索增强生成应用程序失败不是因为模型缺乏能力,而是因为检索不好)。事实证明,这是一个重要的反馈,引导我们进行下一个实验。

推理文件内容
我们决定进行与之前相同的实验,但不是提示模型从网络上检索信息,而是决定将其提供在文本文件中。为此,我们将雅虎财经中每只股票的月度数据复制粘贴到一个文本文件中,并将其提供给模型。该文件包含每只股票的名称以及 HTML 表,其中包含 2024 年 1 月至 12 月每个月第一天的价格和最后记录的价格。数据没有清理,以减少手动工作量并测试模型是否可以从数据中挑选出正确的部分。
同样,两个模型都未能提供正确答案。o1似乎已从文件中提取了数据,但建议使用 Excel 等工具手动进行计算。推理轨迹非常模糊,不包含任何有用的信息来排除模型故障。R1也失败了,没有提供答案,但推理轨迹包含大量有用信息。
例如,很明显,该模型已经正确解析了每只股票的 HTML 数据,并能够提取正确的信息。它还能够逐月计算投资,将它们相加,并根据表格中的最新股价计算最终价值。然而,最终价值仍留在其推理链中,未能进入最终答案。该模型还被 Nvidia 图表中的一行弄糊涂了,该行标记了该公司在 2024 年 6 月 10 日的 10:1 股票分割,最终错误地计算了投资组合的最终价值。

再次强调,真正的区别不在于结果本身,而是调查模型如何得出响应的能力。在这种情况下,R1 为我们提供了更好的体验,让我们了解模型的局限性,以及我们如何重新制定提示并格式化数据以在未来获得更好的结果。
通过网络比较数据
我们进行的另一项实验要求模型比较四位 NBA 顶级中锋的数据,并确定哪一位中锋在 2022/2023 赛季到 2023/2024 赛季的投篮命中率 (FG%) 提升幅度最大。这项任务要求模型对不同的数据点进行多步推理。提示中的陷阱在于,它包括了 2023 年刚刚以新秀身份进入联盟的 Victor Wembanyama。
这个提示的检索要容易得多,因为球员的数据在网络上被广泛报道,并且通常包含在他们的维基百科和 NBA 个人资料中。两个模型都回答正确(如果你好奇的话,答案是扬尼斯),尽管根据他们使用的来源,他们的数据略有不同。然而,他们没有意识到温比不符合比较条件,并收集了他在欧洲联赛期间的其他数据。
在答案中,R1提供了更好的结果细分,并附上了比较表以及其答案所用来源的链接。添加的上下文使我们能够更正提示。在我们修改提示并指定我们正在寻找 NBA 赛季的 FG% 之后,模型正确地将 Wemby 从结果中排除。

最终判决
推理模型是强大的工具,但要完全信任它们执行任务还有很长的路要走,尤其是随着大型语言模型 (LLM) 应用程序的其他组件不断发展。从我们的实验来看,o1 和 R1 仍然会犯一些基本的错误。尽管它们表现出令人印象深刻的结果,但它们仍然需要一些指导才能给出准确的结果。
理想情况下,推理模型应该能够在缺少任务信息时向用户解释。或者,模型的推理轨迹应该能够引导用户更好地理解错误并纠正提示,以提高模型响应的准确性和稳定性。在这方面,R1 占了上风。希望未来的推理模型,包括 OpenAI即将推出的 o3 系列,能够为用户提供更多的可见性和控制力。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/chao-yue-ji-zhun-deepseekr1-he-o1-zai-shi-ji-ren-wu-zhong