思维链的终结：CoreThink与研究者提出AI推理的范式转变‌

王浩然 • 2025年9月8日上午10:00 • AI前沿 • 270 views

在人工智能领域持续追求模型规模扩张的浪潮中，一项突破性研究正在颠覆我们对大语言模型（LLM）推理能力的认知。来自CoreThink AI与加州大学的研究团队发布的技术白皮书《CoreThink：面向长周期任务的符号推理层》尖锐指出：当前主流的”思维链”（Chain-of-Thought）方法本质是”表演性推理”，而非真正的逻辑机制。这项研究不仅揭示了LLM作为统计文本生成器的本质局限，更提出了一种名为”通用符号推理”（General Symbolics）的神经符号架构，在不增加训练成本的前提下，将各类推理任务的准确率提升了30%-60%，标志着AI系统设计可能正面临根本性转向。

思维链方法曾被视为AI推理能力的重大突破。通过要求模型在给出答案前逐步展示思考过程，这种方法在数学、编程等领域的基准测试中确实提升了表现。但研究团队通过大量实验证明，这些看似合理的解释往往与模型实际计算过程脱节，本质上是事后合理化而非真实逻辑的展现。在医疗诊断领域，这种特性可能导致模型依赖虚假相关性生成令人信服却危险的错误结论；在法律应用中，精心构建的推理链可能掩盖缺乏实质依据的判断，威胁司法程序的公正性。更关键的是，思维链方法存在效率缺陷——简单问题常产生冗余步骤，复杂问题反而陷入浅层推理，这种结构性矛盾使得计算资源浪费与准确率下降并存。

研究团队将问题根源追溯至符号AI与神经网络的历史分野。早期基于规则的专家系统虽具透明性，但面对新情境时表现僵化；而数据驱动的神经网络虽擅处理模糊输入，却缺乏可验证的逻辑框架。近年兴起的神经符号混合系统试图融合两者优势，但多数方案因整合困难沦为复杂笨重的折衷产物。通用符号推理器（GSR）的创新在于完全在自然语言层面运作，通过语言转换施加逻辑约束，既保留了上下文细微差别，又能生成人类可读的推理轨迹。这种设计使系统能自然区分”必须”与”应该”等语义差异，并在推理路径中直接暴露矛盾，实现了传统方法难以企及的透明度和可调试性。

基准测试结果验证了该架构的突破性价值。在LiveCodeBench v6编程竞赛题库中，GSR增强系统达到66.6%通过率；针对GitHub真实漏洞修复的SWE-Bench Lite测试中取得62.3%准确率；尤其在衡量抽象推理能力的ARC-AGI-2测试中，24.4%的得分远超Claude、Gemini等前沿模型不足6%的表现。这些数字背后是质的差异：在scikit-learn的ColumnTransformer案例中，基准模型仅提出掩盖错误的表面方案，而GSR系统则定位到同步机制这一根本症结；在LeetCode难题求解时，基础模型因错误应用动态规划完全失败，符号推理层却能修正状态表示并输出有效解。

这项研究恰逢符号AI复兴的关键时刻。DeepMind的AlphaGeometry已证明符号方法在几何问题上的优势，而GSR进一步将这种优势扩展到自然语言领域。与早期混合系统不同，通用符号推理不依赖硬编码规则或大规模重训练，而是作为轻量级插件层增强现有模型。在ARC-AGI测试流程中，确定性对象检测与符号模式抽象结合神经执行，产生了纯LLM系统无法企及的结果；在多轮工具使用场景下，符号层通过维护上下文和约束实施，显著提升了规划可靠性。这种设计使其既保持企业级应用的实用性，又突破了传统神经符号系统复杂度与灵活性不可兼得的困局。

该研究的深层意义在于重新定义了AI推理的技术路线图。当思维链方法被证明是精心设计的”推理剧场”，整个行业必须直面高风险领域对真实逻辑保障的需求。通用符号推理的突破性不在于参数量的增加，而在于重构了推理的底层机制——将符号系统的严谨性与神经网络的适应性通过自然语言这一媒介有机融合。正如研究者强调的：”提升推理能力不需要更多参数，而需要重新思考基础架构”。这种范式转变可能深刻影响医疗诊断、司法分析、金融决策等关键领域的AI部署方式，为可解释人工智能的发展开辟新路径。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/si-wei-lian-de-zhong-jie-corethink-yu-yan-jiu-zhe-ti-chu-ai

企业级应用可解释AI 基准测试突破思维链终结神经符号架构自然语言逻辑范式转变表演性推理轻量级插件通用符号推理

Like (0)

王浩然作者

0 0

‌安圭拉AI革命：加勒比小岛如何成为全球人工智能治理实验室‌

Previous 2025年9月7日

大语言模型如何迫使我们重新定义智能‌

Next 2025年9月8日

AI前沿

Claude AI助手功能大升级：Anthropic推出自主研究与Google Workspace集成‌

在AI生产力工具市场竞争日益激烈的背景下，Anthropic公司对其Claude AI助手进行了重大升级，引入了自主研究功能和Google Workspace集成，将Claude打…

王浩然
2025年4月18日
000
AI前沿

OpenAI 推出 Sora iOS 社交视频应用：深度伪造功能开启 AI 社交新场景，安全与隐私防护同步升级

OpenAI 于 2025 年 10 月 1 日正式发布新一代视频生成模型 Sora 2，并同步推出同名 iOS 社交视频应用（暂不支持安卓系统），该应用以 “深度伪造（Deepf…

王浩然
2025年10月8日
000
AI前沿

收入预测初创公司 Gong 年收入突破3亿美元，暗示潜在IPO之路‌

近日，收入预测领域的初创公司Gong宣布其年度收入（ARR）已突破3亿美元大关。这一里程碑式的成就不仅彰显了Gong在市场上的强劲表现，也为其未来的潜在IPO之路铺平了道路。 Go…

王浩然
2025年3月7日
000
AI前沿

向分子世界的视频生成模型迈进

新系统从模拟中的单个帧开始，使用生成式人工智能模拟分子的动态，连接静态分子结构并将模糊的图片开发成视频。随着生成式人工智能模型能力的不断增强，您可能已经看到它们如何将简单的文本提…

王浩然
2025年1月27日
000
AI前沿

非AI初创企业的破局之道：如何借力AI思维赢得资本青睐

在全球风险投资市场，一个令人警醒的趋势正在形成：2025年第一季度，53%的初创企业融资流向了人工智能领域，而这个比例在2022年仅为9%。这种资本倾斜使得众多拥有优质产品、稳健指…

王浩然
2025年9月3日
000
AI前沿

RavenDB 推出数据库原生 AI 智能体创建工具，简化企业 AI 集成流程

2025 年 10 月 28 日，开源文档数据库平台 RavenDB 正式发布 “首款完全集成的数据库原生 AI 智能体创建工具（Database-Native AI Agent …

王浩然
2025年10月29日
000
AI前沿

人工智能正在帮助品牌避免与有争议的网红合作

对于希望以真实方式推出内容来推广产品和服务的品牌来说，与网红合作可能是一个不错的选择。这类合作可以显著提高品牌知名度和品牌情感，但也存在风险。社交媒体明星在最好的时候也是不可预测的…

点点
2024年10月26日
000
AI前沿

联邦学习如何（以及为什么）增强网络安全

网络攻击每年都越来越频繁，数据泄露的成本也越来越高。无论公司是在开发过程中保护其 AI 系统，还是使用其算法来改善其安全状况，他们都必须减轻网络安全风险。联合学习或许可以同时做到这…

王浩然
2024年10月29日
000
AI前沿

自主代理时代的AI失控风险：内部威胁防控新范式

当谷歌云、微软等巨头加速布局智能代理构建工具，推动自主代理（Autonomous Agents）在企业运营中深度渗透时，一个严峻的问题正浮出水面：当具备自主决策、工具调用能力的AI…

王浩然
2025年11月7日
000
AI前沿

OpenAI斥资30亿美元收购Windsurf：背后的企业战略与AI编码竞赛

在人工智能（AI）领域的激烈竞争中，OpenAI近期的一项重大举措引发了广泛关注——该公司据报道以30亿美元的高价收购了Windsurf，一家专注于AI原生集成开发环境（IDE）的…

王浩然
2025年5月12日
000
AI前沿

为何多数企业AI代理无法投入生产，以及Databricks计划如何解决这一问题‌

在人工智能（AI）技术日新月异的今天，企业对于AI代理的期待与日俱增。然而，一个不容忽视的现实是，许多精心开发的企业AI代理从未真正进入生产环境，发挥其应有的价值。这并非技术不成熟…

王浩然
2025年6月14日
000
AI前沿

ChatGPT 集成如何与 Apple Intelligence 协同工作

周三，借助新发布的 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2 更新，开发人员首次体验了 Apple Intelligence 的 Chat…

王浩然
2024年10月25日
000
AI前沿

合成数据的崛起：为何它将增强而非取代真实数据‌

在人工智能技术飞速发展的当下，数据已成为驱动AI进步的核心燃料。然而随着Elon Musk等科技领袖发出”人类可用数据即将耗尽”的警告，合成数据——这一通过…

王浩然
2025年8月19日
000
AI前沿

无论你喜欢与否，人工智能正在学习如何影响你

当我还是个孩子的时候，我的生活中曾出现过四个人工智能特工。他们的名字分别是 Inky、Blinky、Pinky 和 Clyde，他们竭尽全力追捕我。那是 20 世纪 80 年代…

王浩然
2025年2月18日
000
AI前沿

人工智能科学家：自动化研究的新时代或才刚刚开始

科学研究是深厚知识和创造性思维的迷人结合，推动着新的见解和创新。最近，生成式人工智能已成为一股变革力量，利用其能力处理大量数据集并创建反映人类创造力的内容。这种能力使生成式人工智能…

点点
2024年9月1日
000
AI前沿

Midjourney 表示正在“进军硬件领域”

据报道，人工智能图像生成平台 Midjourney在未获得任何风险投资的情况下就获得了超过 2 亿美元的收入，目前该平台正在进军硬件领域。该公司周三在 X 上的一篇帖子中宣布了这…

王浩然
2024年8月29日
000
AI前沿

中国加速MCP采用：AI助手从聊天到行动的跨越

在人工智能（AI）技术日新月异的今天，中国的科技公司正引领一场新的变革，通过广泛采用模型上下文协议（MCP），将AI助手从简单的聊天机器人转变为能够实际完成任务的数字助手。这一转变…

王浩然
2025年5月3日
000
AI前沿

AI 是销售的未来吗？Salesforce 的新模式可能会改变游戏规则

Salesforce是领先的云端客户关系管理软件提供商，它推出了两种先进的人工智能模型——xGen-Sales和xLAM，旨在帮助企业提高自动化程度和效率。今天发布的这一消息反映了…

王浩然
2024年9月9日
000
AI前沿

Instacart 携手 OpenAI 试点智能体电商：ChatGPT 内实现 “全链路购物”，重塑零售交互范式

生鲜电商平台 Instacart 通过新兴的 “智能体电商协议（Agentic Commerce Protocol）”，在 ChatGPT 内嵌入完整结账体验，成为首个在该平台实现…

王浩然
2025年12月12日
000
AI前沿

华为在人工智能竞赛中胜过苹果了吗？

当这家科技巨头发布其首款人工智能智能手机系列 iPhone 16 系列时，原本应该预示着苹果人工智能新时代的到来，却让许多人感到失望。这款手机目前仍处于测试阶段，预计需要数月甚至数…

点点
2024年9月12日
000

发表回复

Please Login to Comment

思维链的终结：CoreThink与研究者提出AI推理的范式转变‌

相关推荐

发表回复