大语言模型如何迫使我们重新定义智能‌

王浩然 • 2025年9月8日下午12:00 • AI前沿 • 202 views

“如果它看起来像鸭子，游泳像鸭子，叫声像鸭子，那么它很可能就是鸭子。”这句源自印第安纳诗人詹姆斯·惠特科姆·莱利的朴素推理，数十年来深刻影响着我们对人工智能的认知。这种以行为判定本质的思维，直接启发了艾伦·图灵著名的”模仿游戏”——即后来广为人知的图灵测试。图灵提出，如果人类无法区分对话对象是机器还是人类，那么这台机器就可以被称为智能的。无论是鸭子测试还是图灵测试，其核心逻辑都在强调：判断智能的关键不在于系统内部构造，而在于外在行为表现。然而，随着大语言模型（LLMs）的崛起，这个延续数十年的评判标准正面临根本性质疑。当机器能够以人类般的流畅度写作、对话、创作时，我们不得不追问：这种模仿究竟是真智能的体现，还是精妙的错觉？

大语言模型正在重塑机器智能的演化轨迹。从最初只能生成简单文本回复，到如今能够解决逻辑难题、编写程序代码、创作故事乃至协助剧本创作，这些系统的能力边界持续突破。其中最具革命性的进展是”思维链推理”（Chain-of-thought reasoning）能力的出现——通过将复杂问题分解为逐步推理步骤，LLMs能够以类人方式解决数学证明或逻辑谜题，使其在MATH、GSM8K等高级基准测试中达到甚至超越人类水平。更值得注意的是，当代LLMs已发展出多模态能力：可以解析医学影像、阐释视觉谜题、描述复杂图表。这些进步使得核心问题发生了根本转变：我们不再质疑LLMs能否模仿人类行为，而是需要判断这种行为背后是否存在真正的理解。

神经科学与人工智能的交叉研究揭示了令人惊异的发现。最新实验将LLMs的内部工作机制与人类大脑活动进行比对，发现参数量超过700亿的模型不仅达到人类水平准确度，其信息组织方式也与脑波活动模式高度吻合。在模式识别任务中，功能性磁共振成像显示人类参与者与AI模型呈现出相似的活动特征——模型内部层级对抽象概念的聚类方式，直接对应着人脑神经元的激活模式。这暗示着，无论是生物系统还是人工系统，成功的推理可能都需要相似的信息组织结构。但研究者保持谨慎：实验样本量有限，且人类处理视觉模式与机器处理文本描述存在方法论差异。尽管相关性引人深思，这并不能证明机器以人类相同方式理解概念。在复杂抽象任务中，AI模型表现仍会出现显著滑坡，揭示出两者处理机制的本质区别。

哲学视角为这场辩论提供了关键批判。约翰·塞尔提出的”中文房间”思想实验直指行为主义标准的软肋：一个仅靠英文规则手册操纵中文符号的房间内的人，能产出完美中文回复却不理解任何含义。批评者认为LLMs正是这种”随机鹦鹉”（stochastic parrots）——基于训练数据统计模式生成响应，而非真正理解。技术缺陷佐证了这一观点：模型会产生看似合理实则荒谬的”幻觉”回答，因为它们选择的是统计上可能的词汇组合，而非基于真实知识判断。更值得警惕的是，LLMs会复现人类典型错误和偏见——被无关信息干扰、体现种族性别刻板印象、表现出对长文档中间内容的”位置偏见”。这种”迷失在中段”现象与人类全程保持注意力的能力形成鲜明对比，揭示出两者信息处理方式的本质差异。这些局限共同指向核心矛盾：LLMs精于语法模式识别，却在语义理解和现实关联方面存在根本缺陷。

智能定义的边界之争本质上是认识论的范式冲突。若将智能定义为生成连贯语言、解决问题、适应新情境的能力，当前LLMs已然达标；但若要求具备自我意识、真实理解或主观体验，它们仍相去甚远。困境在于，我们缺乏测量理解或意识的客观标准——无论对人类还是机器，我们都只能通过行为反推内在状态。鸭子测试和图灵测试曾提供优雅解决方案，但在LLMs时代，这些传统标准已显不足。当机器能够撰写学术论文、通过律师资格考试、创作打动人心诗歌时，我们不得不重新审视：智能的本质究竟是行为模仿的娴熟度，还是某种更深层的认知特质？这个问题没有简单答案，但迫使整个社会直面技术现实与哲学定义之间的断层线。

这场辩论的终极意义超越学术范畴，直指人工智能发展的伦理基础。医疗诊断、司法裁决、教育评估等关键领域应用LLMs时，我们不仅需要知道它们”能做什么”，更需要明确”如何做到的”。当模型给出癌症诊断建议时，是真正理解病理特征，还是识别文本模式巧合？这种区分关乎生命安危。大语言模型的崛起既展示了机器智能的惊人潜力，也暴露出行为主义标准的时代局限。它们像一面棱镜，折射出人类对自身智能认知的盲点。或许真正的启示在于：我们需要构建新的评估框架，既能识别表面行为下的认知实质，又能为不同形态的智能保留发展空间——毕竟，宇宙中可能存在既不像鸭子游泳，也不像鸭子鸣叫，却同样值得称为智能的存在形式。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/da-yu-yan-mo-xing-ru-he-po-shi-wo-men-chong-xin-ding-yi-zhi

中文房间思想实验伦理基础位置偏见图灵测试多模态能力大语言模型思维链推理智能定义神经科学比对随机鹦鹉

Like (0)

王浩然作者

0 0

思维链的终结：CoreThink与研究者提出AI推理的范式转变‌

Previous 2025年9月8日

共生AI：当机器与微生物联手重塑生命‌

Next 2025年9月8日

AI前沿

研究人员利用《龙与地下城》提高人工智能代理在陌生任务上的表现

有意部署 AI 代理的组织必须首先对其进行微调，尤其是在通常感觉死板的工作流程中。虽然有些组织希望代理只在一个工作流程中执行一种任务，但有时需要将代理带入新环境，希望它们能够适应。…

王浩然
2025年1月11日
000
AI前沿

基础设施、可持续性、人工智能、鸡尾酒

上周，Ars Technica 主编 Ken Fisher 和我一路向西，来到阳光明媚的加利福尼亚州圣何塞，参加一场名为“超越喧嚣：GenAI 的基础设施未来以及接下来会发生什么”…

点点
2024年10月1日
000
AI前沿

Anthropic研究人员发现AI的”过度思考”悖论：推理时间越长模型表现越差

人工智能行业正面临一个反直觉的发现：让AI模型花费更长时间”思考”问题并不总能提升表现，在某些情况下反而会导致性能显著下降。Anthropic公司的最新研究…

王浩然
2025年7月23日
000
AI前沿

AI治疗聊天机器人风险显著，斯坦福研究发出警告‌

据斯坦福大学的研究人员称，由大型语言模型驱动的治疗聊天机器人可能会给心理健康状况的用户带来污名，甚至做出不适当或危险的回应。此前，《纽约时报》等媒体已广泛报道ChatGPT可能强化…

王浩然
2025年7月16日
000
AI前沿

盖蒂图片社撤回对Stability AI的主要版权侵权指控，但英国诉讼仍在继续

盖蒂图片社于近日在伦敦高等法院撤回了对Stability AI公司的主要版权侵权指控，这一举动标志着这起备受瞩目的关于AI公司如何使用版权内容训练其模型的法律纠纷进入了一个新的阶段…

王浩然
2025年7月1日
000
AI前沿

RAG性能评估的新纪元：开源框架助力企业科学衡量AI效能

随着企业纷纷投入资源构建检索增强型生成（RAG）系统，一个关键问题逐渐浮现：这些系统是否真的如预期般有效工作？为了填补这一评估盲区，矢量科技（Vectara）携手滑铁卢大学的林吉米…

王浩然
2025年4月10日
000
AI前沿

GibberLink：让AI代理以机器语言互相“通话”‌

在人工智能领域，随着技术的不断进步，AI代理间的通信成为了一个备受关注的课题。近日，一款名为GibberLink的创新技术横空出世，它实现了AI代理之间以一种独特的“机器语言”进行…

王浩然
2025年3月8日
000
AI前沿

Meta 为其下一代Orion AR 眼镜开发了“神经接口”

在Meta Connect 2024 大会上，首席执行官马克·扎克伯格表示，公司正在开发一种“神经接口”，可用于控制其原型Orion AR 眼镜。该界面似乎受到CTRL-labs…

王浩然
2024年9月27日
000
AI前沿

AI 的未来 “外展进化”：从大模型到智能体，迈向通用智能新征程

2025 年 10 月 8 日，Unite.AI 发布的《The Coming “Exolution” of AI》一文指出，AI 技术正经历从 “被动工具” 到 “主动协作体” …

王浩然
2025年10月12日
000
AI前沿

Reddit押注AI搜索：从流量红利到营收新引擎的野心

在周四发布的2025年第四季度财报中，Reddit交出了一份远超华尔街预期的成绩单：季度营收达到7.26亿美元，同比增长70%，净利润2.52亿美元；全年营收突破22亿美元，净利润…

王浩然
2026年2月10日
000
AI前沿

通过智能数据映射和检索打破云备份“黑匣子”

自计算机诞生之初，企业就一直使用备份来保护其业务关键信息。成功建立的云备份态势可确保组织在自然灾害或系统故障等不可预见的事件中不受影响。然而，即使企业技术堆栈的规模和复杂性成倍增长…

王浩然
2024年11月28日
000
AI前沿

作者呼吁出版商限制AI使用

近日，包括劳伦·格罗夫、列夫·格罗斯曼、R.F.匡、丹尼斯·勒翰和杰弗里·马奎尔在内的一批知名作者，联合发表了一封公开信。这封信矛头直指出版界，呼吁各出版商限制对人工智能（AI）工…

王浩然
2025年7月3日
000
AI前沿

‌印度首富雄心勃勃：计划将每台电视变身电脑‌

在科技飞速发展的当今时代，创新的力量正以前所未有的方式重塑着我们的生活。近日，印度首富、知名企业家穆克什·安巴尼宣布了一项令人瞩目的计划——他希望通过先进的技术手段，将每一台电视转…

王浩然
2025年7月15日
000
AI前沿

重视AI信任：确保AI输出的可靠性‌

随着社会对人工智能（AI）和机器学习（ML）应用的依赖日益加深，信息消费的方式正在被重新定义。从AI驱动的聊天机器人到由大型语言模型（LLMs）生成的信息综合，人们现在能够获取比以…

王浩然
2025年6月12日
000
AI前沿

据报道，台积电暂停向中国公司发货先进芯片

据路透社报道，在华为处理器中发现台湾半导体制造公司生产的芯片后，美国商务部已下令该公司停止向中国客户出货先进芯片。华为面临美国的严格贸易限制，因此暂停发货是为了让政府确定是否有其…

王浩然
2024年11月12日
000
AI前沿

Anthropic 呼吁对人工智能进行监管以避免灾难

Anthropic指出了人工智能系统的潜在风险，并呼吁制定完善的监管措施，以避免潜在的灾难。该组织认为，有针对性的监管对于充分利用人工智能的优势并减轻其风险至关重要。随着人工智能…

点点
2024年11月4日
000
AI前沿

Bluesky 的开放 API 意味着任何人都可以抓取你的数据用于 AI 训练

Bluesky 可能不会像其他社交网络那样根据用户内容训练 AI 系统，但几乎没有什么可以阻止第三方这样做。据404 Media 报道，人工智能公司。Hugging Face 的…

王浩然
2024年11月28日
000
AI前沿

领导者对负责任的人工智能所需的治理水平存在分歧

领导者对于如何打造负责任的人工智能存在分歧，有两种观点，一种是治理主导，一种是实验优先，而监管机构则在寻找正确的平衡方面面临更大困难。这些见解是在上周的人工智能领袖论坛上…

王浩然
2024年12月10日
000
AI前沿

研究表明，人工智能模型在用西班牙语提问时错误率更高

人工智能模型很难用西班牙语准确回答与选举相关的问题。这是AI Democracy Projects 的一项新研究得出的结论，该项目是 Proof News、事实核查服务 Fact…

王浩然
2024年10月31日
000
AI前沿

FrodoBots 和 YGG 携手地球探测挑战赛，共同开发游戏化人工智能和机器人技术

FrodoBots和Yield Guild Games联手通过地球探测器挑战赛活动将人工智能和机器人研究游戏化。总部位于新加坡的 FrodoBots 多年来一直在研究机器人技术。它…

王浩然
2024年9月17日
000

发表回复

Please Login to Comment

大语言模型如何迫使我们重新定义智能‌

相关推荐

发表回复