
近期,一项由西北大学与明尼苏达大学联合开展的研究引发了新闻行业对人工智能工具可靠性的广泛担忧。该研究针对 ChatGPT-5、Google Gemini 以及 Google NotebookLM 三款主流大语言模型展开测试,模拟新闻编辑部常见的查询场景,结果显示 ChatGPT-5 和 Google Gemini 的幻觉率均高达 40%,也就是说,在这两款模型给出的回答中,有近四成包含未经证实的信息,且这些信息往往以自信笃定的语气呈现,极易误导使用者。即便表现相对较好的 Google NotebookLM,其 13% 的幻觉率也远超新闻行业的容错底线 —— 要知道,在新闻领域,这样的错误率足以让任何一名记者失去工作。这一数据不仅暴露了当前大语言模型在新闻场景应用中的核心短板,更凸显出人工智能技术与新闻行业专业标准之间存在的深刻矛盾,为新闻机构使用 AI 工具敲响了警钟。
事实上,大语言模型在新闻行业的快速普及,与行业长期面临的成本压力密切相关。自新世纪初数字新闻兴起,传统报业历经数百年形成的行业传统受到剧烈冲击,媒体行业便陷入了持续的成本削减与人员精简循环。早在 20 世纪 80 年代数字排版技术引入时,“以创新之名” 的裁员就已成为媒体行业的常态,而此前广播、电视的出现也让传统纸质媒体多次面临生存挑战。在这样的行业背景下,人工智能因其在提升效率、降低人力成本方面的潜在优势,被许多新闻机构视为摆脱困境的 “救命稻草”,迅速进入各类新闻生产环节,从信息搜集、素材整理到初步写作,AI 工具的应用范围不断扩大。
然而,这场看似前景光明的 “AI 替代潮”,很快暴露出诸多问题,不少新闻机构开始陷入尴尬境地。数据显示,目前已有 55% 的企业对用 AI 替代人类员工的决策感到后悔,知名研究机构 Gartner 更是预测,未来两年内,各类组织将大幅缩减 AI 部署计划。在新闻行业,这一趋势尤为明显,多家新闻机构已着手重新聘用此前被 AI 取代的记者。之所以出现这样的反转,核心原因在于大语言模型的缺陷逐渐显现:在新闻报道相关工作中,这些模型常常扭曲信息来源,将专家观点或个人看法转化为客观事实,甚至直接剥离信息的原始出处,导致报道失去真实性与可信度。要知道,“真实、准确、有明确信源” 是新闻行业的生命线,AI 工具的这些问题,对新闻业的公信力造成了严重威胁。
在此次研究中,科研人员以 “美国 TikTok 诉讼与政策” 为主题构建了包含 300 份文档的语料库,其中涵盖 5 篇学术论文、150 篇新闻报道和 145 份法律文件,模拟新闻机构开展专题报道或调查性报道时的信息环境。测试过程中,研究人员设计了从宽泛到具体的五类查询指令,同时调整提供给模型的文档数量(10 份、100 份或全部 300 份),以全面考察模型在不同工作场景下的表现。结果发现,大模型的幻觉问题在新闻场景中呈现出独特的表现形式:不同于凭空编造不存在的人物、数据或事件,多数错误源于 “解读过度自信”。例如,模型会毫无依据地为文档添加定性描述,将某份面向政策研究者的法律分析报告标注为 “写给普通公众的科普文章”;或是将带有明确归因的观点,如 “某议员认为 TikTok 存在数据安全风险”,转化为 “TikTok 存在数据安全风险” 这类绝对化的事实陈述。更令人担忧的是,ChatGPT 在一次查询中,甚至凭空捏造了美国拟实施 TikTok 禁令的 “动机”,称其为 “对中国相关政策的报复性措施”,而这一关键信息在提供的源文档中完全没有提及。这种 “看似合理、实则虚假” 的输出,比明显的错误更具迷惑性,因为它符合人们对相关事件的潜在预期,却与事实严重不符,给新闻报道的真实性带来极大隐患。
为何在技术不断迭代升级的当下,大模型的幻觉问题仍难以得到有效解决?研究团队通过分析指出,当前行业内针对大模型幻觉的三类主要解决方案,均存在无法适配新闻行业需求的局限性。第一种方案是 “外部来源锚定”,即让模型依托数据库、文档集或网络内容来支撑输出结论,确保回答有外部信息依据。这种方法在信息完整、可靠的情况下能发挥一定作用,但新闻报道往往需要处理碎片化、时效性强的素材,一旦遇到信息缺失、内容过时或质量低下的文档,模型仍会出现错误。更关键的是,大模型存在 “过度推断” 的倾向,即便源文档仅呈现部分事实或存在争议观点,模型也可能用绝对化、肯定性的语气输出结论,这与新闻行业 “有一分证据说一分话” 的专业原则完全相悖。
第二种方案是 “提示与解码优化”,通过设计精细化的指令引导模型减少错误,比如要求模型在输出前核查证据、将复杂任务拆分为多个步骤,甚至让模型对自身输出进行审查或对比多版回答。这类方法虽然能发现部分明显错误,但也带来了新的问题:一方面,复杂的提示设计需要专业的技术能力,增加了新闻工作者的使用门槛;另一方面,反复的校验流程会大幅增加时间成本,可能抵消 AI 工具本应带来的效率提升。更重要的是,对于新闻场景中常见的 “模糊归因”“观点与事实混淆” 等细微错误,现有提示策略几乎无法识别,最终仍需依赖用户手动验证,难以真正减轻新闻工作者的负担。
第三种方案是 “工具与模型升级”,包括为模型配备搜索引擎、计算器等辅助工具,帮助其获取更准确的信息,或使用高质量、带有明确引文的数据训练模型,提升其输出的可信度。但这一思路同样存在漏洞:辅助工具提供的信息质量参差不齐,模型对信息的筛选和判断能力有限,仍可能引用错误或过时的内容;而即便模型经过专门的引文训练,在面对表述模糊或存在歧义的源文档时,也可能出现 “强行归因” 或 “遗漏关键出处” 的问题。正如研究中所显示的,即便表现最佳的 NotebookLM,也无法完全避免此类错误,本质上仍需要人类的监督与审核,才能防止虚假信息的传播。
研究团队在分析中强调,大语言模型与新闻行业之间的核心矛盾,本质上是一种 “认识论层面的错配”:新闻行业要求每一个主张都有明确、可追溯的信息来源,每一个结论都必须基于客观事实;而当前大语言模型的设计逻辑,是优先生成 “听起来权威、流畅的文本”,而非 “基于证据的准确内容”。要化解这一矛盾,不能仅依靠零散的技术补丁,而需要从根本上重构适配新闻行业需求的 AI 工具架构。
首先,现有针对大模型幻觉的分类体系需要针对新闻场景进行扩容与优化。研究发现,在测试中,64% 的幻觉响应会引入事实偏差或无关信息,而大量错误类型,如 “编造引语”“错误解读专业缩写”“误判文档受众” 等,无法被传统的幻觉分类框架覆盖。例如,某模型曾将一份 “面向法律从业者的 TikTok 诉讼流程解析” 错误标注为 “给普通读者的新闻摘要”,这类错误直接影响新闻报道的专业性与针对性,却未被纳入现有分类标准。未来,新闻行业专用的幻觉分类体系,需要新增 “归因完整性”“受众匹配度”“观点 – 事实区分度” 等维度,精准捕捉新闻场景中特有的错误类型,为后续技术优化提供明确方向。
其次,新闻行业 AI 工具的优化目标需要彻底转变。当前主流大模型多以 “文本流畅度”“响应速度” 为核心指标,追求输出内容的 “可读性” 与 “效率”;而针对新闻行业的 AI 工具,应将 “归因准确性”“事实真实性” 置于首位,甚至可以牺牲一定的流畅度与速度,确保输出内容符合新闻专业标准。例如,在工具架构设计上,可以强制模型在输出每一个主张时,同步关联源文档的具体段落、页码或发布时间,明确标注信息来源;同时,严格限制模型的推断范围,不允许其生成超出源文档内容的结论性表述。NotebookLM 较低的幻觉率已经证明,以引文为核心的检索增强生成(RAG)系统更适配新闻行业的需求,未来需要在此基础上进一步强化 “源信息锁定” 功能,避免模型依赖自身训练数据 “脑补” 内容,确保每一个输出都有迹可循。
最后,在当前技术水平下,“人机协作” 仍是新闻行业应用 AI 工具的必然选择。对于新闻、法律、科研等对 “信息来源可靠性” 要求极高的领域,目前没有任何一款大模型能够完全替代人类的判断与验证作用。新闻机构在使用 AI 工具时,需要建立明确的 “人工审核流程”,将 AI 定位为 “信息整理助手” 而非 “内容创作者”。例如,在开展调查性报道时,可以让 AI 协助筛选文档、提取关键信息、初步梳理时间线,但最终的事实核查、观点平衡、来源确认等核心环节,必须由专业记者完成。通过这种 “AI 辅助 + 人类决策” 的模式,既能发挥 AI 在信息处理方面的效率优势,又能守住新闻真实性的底线。
此次关于大模型幻觉率的研究,并非要否定人工智能在新闻行业的应用价值,而是为行业提供了一个理性审视 AI 工具的契机:在追求效率提升的同时,绝不能牺牲新闻行业的核心准则与专业精神。未来,真正适配新闻行业的 AI 工具,不应是 “替代人类” 的捷径,而应是 “赋能人类” 的桥梁 —— 它能够帮助记者减轻繁琐的信息整理负担,让记者将更多精力投入到深度调查、观点分析与叙事创作中,但永远无法替代人类对真相的敬畏、对事实的坚守以及对社会责任的担当。正如研究结论所指出的:“在可验证的信息来源与明确的归因机制成为大模型原生能力之前,那些‘看似昂贵、麻烦,却不可或缺’的新闻工作者,仍是维护新闻真实性与公信力的最后一道防线。”
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/da-mo-xing-huan-jue-lyu-ju-gao-bu-xia-xin-wen-hang-ye-ai