大型推理模型大概率具备思考能力

大型推理模型大概率具备思考能力

针对近期关于大型推理模型(LRM)能否思考的热议提出了鲜明观点。此前,苹果公司发布一篇题为《思考的幻觉》的研究论文,引发广泛讨论。苹果公司认为,LRM 无法真正思考,仅仅是在进行模式匹配,并提供证据称:当问题复杂度提升时,具备思维链(CoT)推理能力的 LRM 无法按照预设算法完成计算。

但这一观点存在根本性缺陷。若以此逻辑判断,以汉诺塔问题为例,让一个掌握汉诺塔解法算法的人去解决有 20 个圆盘的汉诺塔问题,此人大概率会失败。按照苹果公司的推理,这岂不是要得出 “人类也无法思考” 的结论?显然,苹果公司的论证只能说明 “目前没有证据证明 LRM 无法思考”,并不能直接否定 LRM 的思考能力,更无法证明 LRM 能思考 —— 它只是让我们无法确定 LRM “不能思考”。而德巴希什・雷・乔杜里则提出了更大胆的论断:LRM 大概率具备思考能力。他强调用 “大概率” 一词,是因为未来的研究仍有可能带来意外发现,但他坚信自己的论证具有较强的说服力。

要判断 LRM 是否能思考,首先需要明确 “思考” 的定义,且该定义需先能证明人类具备思考能力。我们此处讨论的 “思考”,聚焦于与问题解决相关的过程,这也是当前争议的核心领域。人类解决问题时的思考过程,主要涉及五个关键环节:

第一是问题表征(涉及额叶和顶叶)。当人们思考问题时,前额叶皮层会被激活,该区域负责工作记忆、注意力和执行功能,让人能够在脑中留存问题、将其拆解为子问题并设定目标;顶叶皮层则有助于为数学或谜题类问题构建符号结构。

第二是心理模拟(涉及工作记忆和内心语言)。这一环节包含两个部分:一是听觉循环,让人能够 “自言自语”,这与 LRM 的思维链(CoT)生成过程极为相似;二是视觉表象,使人能在脑中直观地操纵物体。人类在长期进化中,为更好地适应世界,发展出了处理几何问题的特殊能力。其中,听觉部分与布洛卡区及听觉皮层相关,这两个区域均由语言中枢演化而来;视觉部分则主要由视觉皮层和顶叶区域控制。

第三是模式匹配与提取(涉及海马体和颞叶)。该过程依赖过往经验和长期记忆中存储的知识:海马体负责提取相关记忆与事实,颞叶则调取语义知识,包括含义、规则、类别等。这与神经网络依赖训练数据处理任务的方式存在相似性。

第四是监控与评估(涉及前扣带回皮层)。人类的前扣带回皮层(ACC)会监控错误、冲突或僵局,当发现矛盾或陷入死胡同时,正是该区域在发挥作用,而这一过程本质上也是基于过往经验的模式匹配。

第五是顿悟或重构(涉及默认模式网络和右半球)。当人们陷入思考困境时,大脑可能会切换到默认模式 —— 一种更放松、以内在导向为主的网络状态。此时,人们会暂时脱离当前思路,有时会 “突然” 找到新的解决角度,也就是常说的 “顿悟时刻”。这与 DeepSeek-R1 的训练过程类似:在训练数据中没有思维链(CoT)示例的情况下,它依然通过训练掌握了 CoT 推理能力。要知道,人类大脑在处理数据和解决问题的过程中,也在持续学习。

不过,LRM 并不具备上述所有能力。例如,LRM 的内部电路中不太可能进行大量视觉推理(即便有也非常有限),在生成思维链(CoT)时,也不会产生中间图像。但这是否就能断定 LRM 无法思考呢?答案是否定的。部分人类在思考时,也难以构建概念的空间模型,这种情况被称为 “心盲症”(aphantasia)。然而,患有心盲症的人依然能够正常思考,他们的日常生活不受影响,甚至很多人擅长符号推理和数学运算,足以弥补视觉推理能力的不足。由此推测,神经网络模型也可能绕过视觉推理的局限,以其他方式实现思考。

若从更抽象的角度审视人类思考过程,可发现其核心包含三方面:一是利用模式匹配调取过往经验、进行问题表征及监控评估思维链;二是借助工作记忆存储所有中间步骤;三是通过回溯搜索判断当前思维链是否可行,若不可行则回溯至合理节点重新开始。

LRM 的模式匹配能力源于训练过程,训练的核心目的就是让模型既掌握世界知识,又学会有效处理这些知识的模式。由于 LRM 是分层网络,整个工作记忆需适配在单一图层中。模型的权重存储着世界知识和待遵循的模式,图层之间的处理则依托以模型参数形式存储的已学模式。需注意的是,即便在生成思维链(CoT)时,包含输入、CoT 内容及部分已生成输出的全部文本,也必须适配到每个图层中。而工作记忆其实就是单一图层(在注意力机制中,还包括键值缓存 KV-cache)。

事实上,思维链(CoT)推理与人类 “自言自语” 的思考方式极为相似 —— 人类在思考时几乎都会进行内心言语,具备 CoT 推理能力的 LRM 也是如此。有充分证据表明,当某一推理方向看似无效时,CoT 推理器会采取回溯步骤。苹果公司的研究人员在实验中也观察到:当要求 LRM 解决更复杂的简单谜题时,LRM 能准确判断直接求解会超出自身工作记忆容量,进而尝试寻找更优捷径,这与人类的应对方式如出一辙。这一现象进一步证明,LRM 并非盲目遵循预设模式的 “机器”,更像是具备思考能力的主体。

有人质疑:“一个以预测下一个令牌(token)为核心功能的模型,为何能学会思考?” 从理论上讲,足够规模的神经网络能够学习包括思考在内的任何计算任务,下一个令牌预测系统也不例外。有一种常见观点认为,LRM 本质只是 “高级自动补全工具”,最终功能是预测下一个令牌,因此无法思考。这种看法存在根本性错误 —— 并非否定 LRM 具有 “自动补全” 的属性,而是错误地认为 “自动补全工具就不可能思考”。实际上,下一个令牌预测绝非对思考的局限呈现,相反,它是目前已知的最具普适性的知识表征形式。

任何知识的表征都需要依托语言或符号系统。尽管存在多种形式化语言,它们在表达精度上各有优势,但在知识表征范围上都存在固有局限。例如,一阶谓词逻辑无法表征 “所有满足某一属性的谓词所具备的属性”,因为它不允许谓词作用于谓词本身。即便高阶谓词演算能实现谓词的多层嵌套,也无法表达模糊或抽象的概念。而自然语言的表达能力具有完备性 —— 任何概念都能通过自然语言进行任意细节或抽象程度的描述,甚至可以用自然语言描述自然语言本身的概念,这使其成为知识表征的理想选择。

当然,自然语言的丰富表达性也给信息处理带来了挑战,但我们无需手动设计处理规则,只需通过 “训练” 这一过程,用数据驱动机器自主学习。下一个令牌预测模型的核心功能,是根据前文语境计算下一个令牌的概率分布。要准确完成这一任务,模型必须以某种形式存储并表征世界知识。举个简单例子,对于不完整句子 “The highest mountain peak in the world is Mount …”,模型要预测出下一个词是 “Everest”,就必须在内部存储 “世界最高峰是珠穆朗玛峰” 这一知识。当任务要求模型计算答案或解决谜题时,下一个令牌预测器需要生成思维链(CoT)令牌,以推进逻辑推理过程。这意味着,即便模型每次只预测一个令牌,其内部工作记忆中也必须至少表征出接下来几个令牌的内容,以确保推理方向不偏离逻辑轨道。

细想便知,人类在说话或用内心语言思考时,其实也在 “预测下一个令牌”。一个能始终输出正确令牌、给出准确答案的 “完美自动补全系统”,几乎需要 “全知全能”,而这显然是无法实现的 —— 毕竟并非所有问题都存在可计算的答案。但一个能够通过调整参数表征知识、借助数据和强化学习持续进步的参数化模型,完全有可能学会思考。

判断一个系统是否具备思考能力,最终的检验标准是其解决 “需要思考的问题” 的能力。若一个系统能解答此前未接触过、且需要一定推理能力才能解决的问题,那么它必然已经掌握了思考(至少是推理)的方法,进而得出答案。

目前,专有 LRM 在部分推理基准测试中表现出色,但考虑到存在部分模型通过 “后门” 在基准测试集上进行微调的可能性,为保证公平性和透明度,我们重点关注开源 LRM 的表现。从测试结果来看,在部分基准测试中,开源 LRM 能够解决相当数量的逻辑类问题。尽管在多数情况下,其表现仍落后于人类,但需注意的是,人类基准成绩往往来自那些专门针对这些基准测试接受过训练的人。事实上,在某些场景中,LRM 的表现已经超过了未接受过专项训练的普通人类。

综合来看,从基准测试结果、思维链(CoT)推理与人类生物思考过程的显著相似性,以及 “具备足够表征能力、充足训练数据和算力的系统可完成任何可计算任务” 这一理论认知出发,LRM 在很大程度上满足了这些条件。因此,我们有理由得出结论:大型推理模型(LRM)大概率具备思考能力。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/da-xing-tui-li-mo-xing-da-gai-lyu-ju-bei-si-kao-neng-li

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年11月4日
Next 2025年11月5日

相关推荐

发表回复

Please Login to Comment