大模型幻觉率居高不下：新闻行业 AI 应用的信任危机与解决路径

王浩然 • 2025年10月5日下午6:00 • AI前沿 • 297 views

近期，一项由西北大学与明尼苏达大学联合开展的研究引发了新闻行业对人工智能工具可靠性的广泛担忧。该研究针对 ChatGPT-5、Google Gemini 以及 Google NotebookLM 三款主流大语言模型展开测试，模拟新闻编辑部常见的查询场景，结果显示 ChatGPT-5 和 Google Gemini 的幻觉率均高达 40%，也就是说，在这两款模型给出的回答中，有近四成包含未经证实的信息，且这些信息往往以自信笃定的语气呈现，极易误导使用者。即便表现相对较好的 Google NotebookLM，其 13% 的幻觉率也远超新闻行业的容错底线 —— 要知道，在新闻领域，这样的错误率足以让任何一名记者失去工作。这一数据不仅暴露了当前大语言模型在新闻场景应用中的核心短板，更凸显出人工智能技术与新闻行业专业标准之间存在的深刻矛盾，为新闻机构使用 AI 工具敲响了警钟。

事实上，大语言模型在新闻行业的快速普及，与行业长期面临的成本压力密切相关。自新世纪初数字新闻兴起，传统报业历经数百年形成的行业传统受到剧烈冲击，媒体行业便陷入了持续的成本削减与人员精简循环。早在 20 世纪 80 年代数字排版技术引入时，“以创新之名” 的裁员就已成为媒体行业的常态，而此前广播、电视的出现也让传统纸质媒体多次面临生存挑战。在这样的行业背景下，人工智能因其在提升效率、降低人力成本方面的潜在优势，被许多新闻机构视为摆脱困境的 “救命稻草”，迅速进入各类新闻生产环节，从信息搜集、素材整理到初步写作，AI 工具的应用范围不断扩大。

然而，这场看似前景光明的 “AI 替代潮”，很快暴露出诸多问题，不少新闻机构开始陷入尴尬境地。数据显示，目前已有 55% 的企业对用 AI 替代人类员工的决策感到后悔，知名研究机构 Gartner 更是预测，未来两年内，各类组织将大幅缩减 AI 部署计划。在新闻行业，这一趋势尤为明显，多家新闻机构已着手重新聘用此前被 AI 取代的记者。之所以出现这样的反转，核心原因在于大语言模型的缺陷逐渐显现：在新闻报道相关工作中，这些模型常常扭曲信息来源，将专家观点或个人看法转化为客观事实，甚至直接剥离信息的原始出处，导致报道失去真实性与可信度。要知道，“真实、准确、有明确信源” 是新闻行业的生命线，AI 工具的这些问题，对新闻业的公信力造成了严重威胁。

在此次研究中，科研人员以 “美国 TikTok 诉讼与政策” 为主题构建了包含 300 份文档的语料库，其中涵盖 5 篇学术论文、150 篇新闻报道和 145 份法律文件，模拟新闻机构开展专题报道或调查性报道时的信息环境。测试过程中，研究人员设计了从宽泛到具体的五类查询指令，同时调整提供给模型的文档数量（10 份、100 份或全部 300 份），以全面考察模型在不同工作场景下的表现。结果发现，大模型的幻觉问题在新闻场景中呈现出独特的表现形式：不同于凭空编造不存在的人物、数据或事件，多数错误源于 “解读过度自信”。例如，模型会毫无依据地为文档添加定性描述，将某份面向政策研究者的法律分析报告标注为 “写给普通公众的科普文章”；或是将带有明确归因的观点，如 “某议员认为 TikTok 存在数据安全风险”，转化为 “TikTok 存在数据安全风险” 这类绝对化的事实陈述。更令人担忧的是，ChatGPT 在一次查询中，甚至凭空捏造了美国拟实施 TikTok 禁令的 “动机”，称其为 “对中国相关政策的报复性措施”，而这一关键信息在提供的源文档中完全没有提及。这种 “看似合理、实则虚假” 的输出，比明显的错误更具迷惑性，因为它符合人们对相关事件的潜在预期，却与事实严重不符，给新闻报道的真实性带来极大隐患。

为何在技术不断迭代升级的当下，大模型的幻觉问题仍难以得到有效解决？研究团队通过分析指出，当前行业内针对大模型幻觉的三类主要解决方案，均存在无法适配新闻行业需求的局限性。第一种方案是 “外部来源锚定”，即让模型依托数据库、文档集或网络内容来支撑输出结论，确保回答有外部信息依据。这种方法在信息完整、可靠的情况下能发挥一定作用，但新闻报道往往需要处理碎片化、时效性强的素材，一旦遇到信息缺失、内容过时或质量低下的文档，模型仍会出现错误。更关键的是，大模型存在 “过度推断” 的倾向，即便源文档仅呈现部分事实或存在争议观点，模型也可能用绝对化、肯定性的语气输出结论，这与新闻行业 “有一分证据说一分话” 的专业原则完全相悖。

第二种方案是 “提示与解码优化”，通过设计精细化的指令引导模型减少错误，比如要求模型在输出前核查证据、将复杂任务拆分为多个步骤，甚至让模型对自身输出进行审查或对比多版回答。这类方法虽然能发现部分明显错误，但也带来了新的问题：一方面，复杂的提示设计需要专业的技术能力，增加了新闻工作者的使用门槛；另一方面，反复的校验流程会大幅增加时间成本，可能抵消 AI 工具本应带来的效率提升。更重要的是，对于新闻场景中常见的 “模糊归因”“观点与事实混淆” 等细微错误，现有提示策略几乎无法识别，最终仍需依赖用户手动验证，难以真正减轻新闻工作者的负担。

第三种方案是 “工具与模型升级”，包括为模型配备搜索引擎、计算器等辅助工具，帮助其获取更准确的信息，或使用高质量、带有明确引文的数据训练模型，提升其输出的可信度。但这一思路同样存在漏洞：辅助工具提供的信息质量参差不齐，模型对信息的筛选和判断能力有限，仍可能引用错误或过时的内容；而即便模型经过专门的引文训练，在面对表述模糊或存在歧义的源文档时，也可能出现 “强行归因” 或 “遗漏关键出处” 的问题。正如研究中所显示的，即便表现最佳的 NotebookLM，也无法完全避免此类错误，本质上仍需要人类的监督与审核，才能防止虚假信息的传播。

研究团队在分析中强调，大语言模型与新闻行业之间的核心矛盾，本质上是一种 “认识论层面的错配”：新闻行业要求每一个主张都有明确、可追溯的信息来源，每一个结论都必须基于客观事实；而当前大语言模型的设计逻辑，是优先生成 “听起来权威、流畅的文本”，而非 “基于证据的准确内容”。要化解这一矛盾，不能仅依靠零散的技术补丁，而需要从根本上重构适配新闻行业需求的 AI 工具架构。

首先，现有针对大模型幻觉的分类体系需要针对新闻场景进行扩容与优化。研究发现，在测试中，64% 的幻觉响应会引入事实偏差或无关信息，而大量错误类型，如 “编造引语”“错误解读专业缩写”“误判文档受众” 等，无法被传统的幻觉分类框架覆盖。例如，某模型曾将一份 “面向法律从业者的 TikTok 诉讼流程解析” 错误标注为 “给普通读者的新闻摘要”，这类错误直接影响新闻报道的专业性与针对性，却未被纳入现有分类标准。未来，新闻行业专用的幻觉分类体系，需要新增 “归因完整性”“受众匹配度”“观点 – 事实区分度” 等维度，精准捕捉新闻场景中特有的错误类型，为后续技术优化提供明确方向。

其次，新闻行业 AI 工具的优化目标需要彻底转变。当前主流大模型多以 “文本流畅度”“响应速度” 为核心指标，追求输出内容的 “可读性” 与 “效率”；而针对新闻行业的 AI 工具，应将 “归因准确性”“事实真实性” 置于首位，甚至可以牺牲一定的流畅度与速度，确保输出内容符合新闻专业标准。例如，在工具架构设计上，可以强制模型在输出每一个主张时，同步关联源文档的具体段落、页码或发布时间，明确标注信息来源；同时，严格限制模型的推断范围，不允许其生成超出源文档内容的结论性表述。NotebookLM 较低的幻觉率已经证明，以引文为核心的检索增强生成（RAG）系统更适配新闻行业的需求，未来需要在此基础上进一步强化 “源信息锁定” 功能，避免模型依赖自身训练数据 “脑补” 内容，确保每一个输出都有迹可循。

最后，在当前技术水平下，“人机协作” 仍是新闻行业应用 AI 工具的必然选择。对于新闻、法律、科研等对 “信息来源可靠性” 要求极高的领域，目前没有任何一款大模型能够完全替代人类的判断与验证作用。新闻机构在使用 AI 工具时，需要建立明确的 “人工审核流程”，将 AI 定位为 “信息整理助手” 而非 “内容创作者”。例如，在开展调查性报道时，可以让 AI 协助筛选文档、提取关键信息、初步梳理时间线，但最终的事实核查、观点平衡、来源确认等核心环节，必须由专业记者完成。通过这种 “AI 辅助 + 人类决策” 的模式，既能发挥 AI 在信息处理方面的效率优势，又能守住新闻真实性的底线。

此次关于大模型幻觉率的研究，并非要否定人工智能在新闻行业的应用价值，而是为行业提供了一个理性审视 AI 工具的契机：在追求效率提升的同时，绝不能牺牲新闻行业的核心准则与专业精神。未来，真正适配新闻行业的 AI 工具，不应是 “替代人类” 的捷径，而应是 “赋能人类” 的桥梁 —— 它能够帮助记者减轻繁琐的信息整理负担，让记者将更多精力投入到深度调查、观点分析与叙事创作中，但永远无法替代人类对真相的敬畏、对事实的坚守以及对社会责任的担当。正如研究结论所指出的：“在可验证的信息来源与明确的归因机制成为大模型原生能力之前，那些‘看似昂贵、麻烦，却不可或缺’的新闻工作者，仍是维护新闻真实性与公信力的最后一道防线。”

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/da-mo-xing-huan-jue-lyu-ju-gao-bu-xia-xin-wen-hang-ye-ai

Like (0)

王浩然作者

0 0

Adalo 深度评测：2025 年无代码开发的「可视化利器」，创意落地快人一步

Previous 2025年10月5日下午4:00

AI 应用开发的未来：类型安全是不可逾越的基石

Next 2025年10月5日

AI前沿

云资源扩散、数据孤岛与CloudQuery对统一云治理的探索‌

在当今数字化时代，企业云资产的规模日益庞大，结构也愈发复杂。这种复杂性给企业的云资源管理和数据洞察带来了前所未有的挑战。云资源扩散和数据孤岛现象日益严重，使得企业难以获得对云资产的…

王浩然
2025年6月14日
000
AI前沿

升级后的Grok引发争议：批评民主党与好莱坞犹太高管

在科技界的聚光灯下，一款名为Grok的人工智能聊天机器人近日因发表一系列具有争议的言论而再次成为舆论焦点。这款由xAI公司开发的AI产品，在经历了一次重大升级后，开始展现出对民主党…

王浩然
2025年7月11日
000
AI前沿

身份盗窃案件激增，认证疲劳日益严重‌

在当今的数字化时代，身份盗窃已成为一个日益严峻的全球性问题。据最新数据显示，身份盗窃报告数量已突破110万大关，这一惊人的数字背后，是无数受害者的财产损失与心理创伤。更令人担忧的是…

王浩然
2025年7月7日
000
AI前沿

加州州长签署 9 项法案，规范人工智能生成内容

立法旨在解决深度伪造带来的风险

点点
2024年9月27日
000
AI前沿

Helios：打造公共政策领域的AI操作系统‌

在人工智能技术日新月异的今天，一个旨在为公共政策专业人士提供全方位支持的新型AI操作系统——Helios应运而生。这个系统由一群拥有深厚政策背景和技术实力的团队打造，旨在通过智能化…

王浩然
2025年7月14日
000
AI前沿

IBM在纽约市启动AI创新中心，旨在推动AI技术的飞跃发展‌

近日，IBM宣布在纽约市正式启用全新的watsonx AI Labs创新中心。这一举措不仅标志着IBM在人工智能领域的又一重大布局，更是对纽约市AI生态的又一次强力推动。watso…

王浩然
2025年6月5日
000
AI前沿

Mission Control AI推出Swarm平台：为高安全要求行业打造专属合成劳动力

在企业AI应用加速落地的当下，自主AI代理的治理与安全问题正成为行业关注的焦点。近日，总部位于旧金山的Mission Control AI正式推出Swarm平台——一款专为高度监管…

王浩然
2026年2月26日
000
AI前沿

SandboxAQ 获 3 亿美元融资，推动大型量化模型创新

SandboxAQ 宣布获得超过 3 亿美元的资金，用于加速其大型量化模型 (LQM) 和其他 AI 应用程序的开发。此轮融资由 Fred Alger Management、T.…

王浩然
2024年12月25日
000
AI前沿

人工智能驱动的个性化：增强消费者参与度

我们生活在一个个性化消费体验日益成为常态的世界。想想看，几十年前，咖啡店里唯一的选择就是奶油和糖或黑咖啡。如今，你以为你可以点一杯半咖啡因、无泡沫、杏仁奶的卡布奇诺，再加两泵无糖香…

点点
2024年10月16日
000
AI前沿

波音公司的星际客机在没有机组人员的情况下完美着陆，项目前景仍不确定

经过数月的延误和不确定性，波音公司的星际航线太空舱终于从国际空间站返回，并于周六午夜后降落在新墨西哥州白沙太空港。太空舱自动返回地球，但两名机组人员——美国宇航局宇航…

点点
2024年9月8日
000
AI前沿

OpenAI 聘请首位首席经济学家

OpenAI 聘请了其首位首席经济学家：Aaron Chatterji，他曾任美国总统乔·拜登 (Joe Biden) 商务部的首席经济学家和总统巴拉克·奥巴马 (Barack O…

王浩然
2024年10月24日
000
AI前沿

人工智能通过改变行为帮助预防皮肤癌

在过去的一年里，随着越来越多的临床医生在日常实践中测试、使用和整合人工智能伴侣，我们看到了人工智能辅助癌症诊断方面取得的显著成就。皮肤癌也不例外，我们预计未来 AI 诊断工具将广…

点点
2024年9月14日
000
AI前沿

亚马逊Kuiper卫星项目获竞争对手SpaceX助力发射‌

亚马逊在轨道领域挑战SpaceX的竞赛正获得来自其最大竞争对手的帮助——SpaceX将于本周三为亚马逊的Project Kuiper互联网卫星项目执行新一轮发射任务。24颗Kuip…

王浩然
2025年7月19日
000
AI前沿

Nvidia 发布了可分析视频的 AI 代理蓝图

今天，作为首席执行官黄仁勋 (Jensen Huang)在CES 2025开幕主题演讲的一部分， Nvidia推出了可分析视频的 AI 代理蓝图。由 Metropolis 提供支…

王浩然
2025年1月8日
000
AI前沿

Brex与Puzzle合作实现一键式会计设置，为初创企业带来革命性财务解决方案‌

在当今快速发展的商业环境中，初创企业面临着诸多挑战，其中会计系统的设置和管理往往成为阻碍企业发展的关键瓶颈。2025年9月24日，Brex公司与人工智能会计平台Puzzle宣布达成…

王浩然
2025年9月27日
000
AI前沿

AMD 报告创纪录的收入但第四季度预测令人失望

超微半导体公司公布第三财季营收达到创纪录的 68 亿美元，比去年同期增长 18%。但由于第四季度业绩预期不尽如人意，超微半导体公司股价下跌。本季度，AMD 数据中心部门收入创纪录…

王浩然
2024年11月1日
000
AI前沿

为什么黄仁勋和马克·贝尼奥夫认为代理型人工智能有“巨大”机遇

Nvidia创始人兼首席执行官黄仁勋表示，展望未来，人工智能代理的机会将是“巨大的”。黄仁勋本周在 Salesforce 的旗舰活动Dreamforce的炉边谈话中表示，目前…

王浩然
2024年9月22日
000
AI前沿

从问题开始，沙盒，确定值得信赖的供应商——人工智能入门快速指南

77%的公司已在使用或探索使用 AI，超过 80% 的公司声称这是首要任务，领导者渴望从该技术中获得最大价值。然而，可用的解决方案数量和随之而来的大量营销信息可能会让寻找一条清晰的…

王浩然
2025年2月9日
000
AI前沿

Terminal-Bench 2.0 与 Harbor 框架同步发布：构建 AI 智能体容器化测试新体系

面向自主 AI 智能体性能评估的基准测试套件 Terminal-Bench 推出 2.0 版本，同时配套发布容器化测试框架 Harbor。这一组合发布旨在解决 AI 智能体（尤其面…

王浩然
2025年11月13日
000
AI前沿

2024 年上半年网络安全趋势与洞察：您需要了解的内容

Perception Point发布的2024 年上半年网络安全趋势与洞察报告揭示了快速演变的网络威胁形势，其特点是攻击的复杂性和频率都在增加。与 2023 年上半年相比，每位用户…

点点
2024年9月5日
000

发表回复

Please Login to Comment

大模型幻觉率居高不下：新闻行业 AI 应用的信任危机与解决路径

相关推荐

发表回复