AI 更倾向于 “读文字” 而非 “看视频”：视觉语言模型的文本依赖现象

王浩然 • 2025年11月3日下午7:00 • AI前沿 • 699 views

即便一些 AI 模型专为处理视频任务设计，要让它们真正分析视频内容并发表评论仍异常困难，相比之下，它们对文字内容的处理意愿和能力要突出得多。

日常生活中，若你尝试向 ChatGPT 或类似的主流视觉语言模型上传一段短视频，可能会惊讶地发现这些模型无法直接解析视频。以 ChatGPT-4o + 为例，它虽能分析 JPEG、PNG 格式的单帧图像，却要求用户自行提取视频帧并以图像形式上传，之后才会对这些图像进行评论。对于 OpenAI 的 GPT 系列模型，若想让其为视频生成 AI 叙事轨道，用户需费力地从视频中提取完整的帧序列并输入模型。但无论是通过调用大型程序中的函数，还是使用 FFmpeg 或各类免费、付费的视频编辑工具提取帧，这一系列转换工作都需用户自行完成，AI 模型并未提供便捷的视频直接处理功能。

从本质来看，ChatGPT 这类大规模产品在视频分析方面的局限，很大程度上源于资源消耗问题。若要为每个 AI 实例配备主流视频编解码器，且在数百万用户可能每天使用该功能的情况下，投入计算资源去处理磁盘占用量大、CPU 负载高的视频帧提取过程，这绝非小事，需要权衡巨大的资源成本与实际需求。此外，时序分析与单帧分析的结果差异显著，比如一个人带着愉悦心情进入房间，随后却发现一具尸体，这种情节的变化只有通过时序分析才能完整捕捉。即便对于短片段视频，要分析其完整的时序 “校验和”，不仅是资源密集型任务，还属于专业研究领域，目前像光流（Optical Flow）这样的框架仍在持续开发中，该框架能将一段视频 “展开”，使其可被当作静态文档处理，为视觉语言模型（VLMs）提供所需的时序连续性，同时也能在视觉特效工作流中充当结构指导。

尽管存在这些技术难题，谷歌的 Notebook LM 以及新版 ChatGPT 等模型，因能读取视频相关的元数据（即能为视频提供上下文的嵌入式文本内容），并未禁止用户上传视频文件，有时甚至会尝试解读无任何元数据的视频。但实际效果却不尽如人意，有实验显示，将一段来自 2021 年意大利电影《上帝之手》的 6 秒无意义片段上传至 Notebook LM，且确保片段的元数据和文件名中均无有用文本时，Notebook LM 竟生成了与该视频完全无关的内容，甚至还虚构出一段毫无关联的 5 分钟双人播客，这种 “幻觉式” 解读充分暴露了 AI 在无文本辅助时处理视频的短板。值得注意的是，Notebook LM 和 ChatGPT 虽接受 YouTube 视频作为输入，但前提是视频包含可解析的文本层注释或字幕（不包括嵌入视频画面的光栅化字幕）。这意味着，对视频内容进行实际查看、聆听并进行语义解读的艰巨工作 —— 这也是 YouTube 出于版权保护及待推出的身份保护系统的法律要求所必需的 —— 需在用户上传后，待系统有空闲资源分配时才能进行。由此可见，真正的视频解读不仅成本高昂，还十分耗费算力，即便专为视频处理设计的 AI 模型，也更倾向于读取文本而非分析视频。

英国布里斯托尔大学一篇名为《A Video Is Not Worth a Thousand Words》的新论文，进一步验证了这一现象。论文作者通过研究得出结论：当前最先进的视觉语言模型（VLMs），即便其设计初衷是更深入地分析视频并支持视频问答（VQA），但只要有机会，仍会默认依赖文本信息。研究发现，当同时向这些模型提供视频画面、文字问题及多项选择题答案时，模型的选择往往基于文本中的模式，而非视频画面所呈现的内容 —— 在很多情况下，即便完全去掉问题，模型的表现也相差无几。这种行为类似于习惯性的 “走捷径” 或 “作弊”，对大多数模型而言，能否识别答案选项中的模式最为关键；只有当任务难度增加，比如增加更多答案选项时，AI 才会开始更关注视频内容。

为深入探究模型决策过程中各输入因素的作用，研究人员采用了博弈论中的沙普利值（Shapley Values）方法。该方法最初用于在联盟中公平分配收益，如今被用来评估视频帧或文本组件（注释、字幕等）在视频问答任务中对模型决策的 “贡献度”。通过系统地测试添加或移除某一组件对模型决策的影响，可判断该组件在模型得出最终答案过程中的重要性。考虑到数据类型的多样性，研究人员对沙普利值进行了调整，以适应多模态数据处理，将视频和文本组件分开对待，衡量它们对模型输出的不同影响，进而判断模型是真正解读了视频内容，还是借助文字线索走了捷径。

研究还定义了两个简单指标来比较不同模态（视频、问题、答案）对模型决策的贡献程度。其一为 “模态贡献度”（Modality Contribution），通过汇总所有可用沙普利值，计算每种输入类型的贡献占比，以此衡量各模态对模型决策的整体影响；其二为 “每特征贡献度”（Per-Feature Contribution），考虑到不同模态的特征数量差异（如视频的特征数量远多于文本），该指标通过计算每种特征的平均沙普利值并进行比较，来确定哪种模态的影响力更占主导。

在实验设计上，为确保测试结果的广泛适用性和通用性，研究人员选取了 6 个具有不同特征的视觉语言模型，这些模型在上下文长度、发布时间（框架推出时长）及架构配置上均存在差异，分别是 FrozenBiLM、InternVideo、VideoLLaMA2、VideoLLaMA3、LLaVa-Video（基于 Qwen2）和 LongVA（同样基于 Qwen2）。同时，选择了 4 个具有多样性的数据集：EgoSchema（一个需完整观看视频才能完成问答的视频问答数据集）、HD-EPIC（以厨房场景为主，包含超长视频的数据集）、MVBench（整合其他数据集内容的精选数据集）和 LVBench（针对超长视频设计问答查询的数据集）。研究人员从这些数据集中设计了 60 个问题，每种问题类型各 10 个。

实验结果通过贡献度指标清晰显示，大多数模型对视频的依赖程度远低于对文本的依赖，尤其在逐帧分析时更为明显。即便视频在整体贡献度上表现尚可，但其每特征影响力往往微乎其微，这表明模型可能只是在整体上利用了视频信息，却并未关注单个帧的细节。VideoLLaMA3 是个例外，它对视觉信息的依赖更强，尤其在处理 LVBench 中的长序列视频时表现突出。从文本角度看，在性能较强的模型中，问题对决策的影响通常大于答案，这在 EgoSchema 等数据集中表现得尤为明显 —— 该数据集中的问题更长、更贴近自然语言，而答案则较短且有时具有一定模式性。不过，MVBench 数据集的情况有所不同，其二元答案结构使得答案标记的重要性看似有所提升。但总体而言，在所有模型和数据集中，视觉信息始终处于次要地位，文本信息承担了大部分决策 “重任”。

论文中提到：“对于长上下文模型，视频的贡献度大幅降低，这意味着逐帧来看，视频的沙普利值远低于文本特征的沙普利值。尽管视频作为一种模态仍具有重要意义，但这一现象表明，视频单个帧的沙普利值更接近零，模型对视频帧的关注远不如对文本的关注那样有针对性。” 为进一步测试各输入部分（视频、文本等）对模型准确性的影响，研究人员还进行了掩蔽测试 —— 故意隐藏一个或多个输入部分，观察模型准确性的变化。若移除某个输入后模型性能大幅下降，说明该输入至关重要；若性能基本不变，则表明模型对该输入的依赖程度较低，这种测试类似于迭代消融研究。

掩蔽测试结果显示，在四个视频问答基准测试中，答案（选择题中的文本答案）对模型决策的影响最大。通常情况下，掩蔽答案会导致模型准确性大幅下降，甚至接近随机水平；而掩蔽问题对模型性能的影响通常较小，在某些情况下，移除问题后模型准确性甚至会有所提升，这意味着模型有时只是将答案与视觉或文本线索进行匹配，而非真正评估问题。不同模型对视频的依赖程度也存在差异，部分模型在无视频输入时仍能保持较高准确性，这进一步证实了当前许多模型中视频特征的贡献有限。

研究人员还测试了通过增加错误答案选项，能否迫使模型更多依赖视频信息。结果显示，当错误选项较简单且来自其他问题时，模型性能会提升，因为它们可通过文本模式匹配得出答案；但当错误选项增加到 10 个或更多且彼此无关时，模型会开始更多地依赖视频和问题信息。以 VideoLLaMA3 为例，在 EgoSchema 数据集上掩蔽视频后，其准确性下降了 40%，在 LVBench 数据集上下降了 15%，这表明增加答案数量确实能促使模型摆脱文本捷径，转向真正的多模态推理。

此外，研究人员还通过热力图展示了各模型输入的沙普利值分布，结果显示，热力图右侧（代表问题和答案的文本部分）的沙普利值幅度远大于左侧（代表视频帧的视觉部分），视频模态的贡献远低于问题和答案的文本贡献。在 EgoSchema 数据集的一个标注示例中，通过沙普利值筛选出的 16 个 “最重要” 视频帧，其影响力均远低于问题和答案中的文字，视觉线索零散且无规律，而 “椅子”“栅栏” 等名词却能引导模型做出正确或错误的选择。

综合来看，任何涉足视频编辑或视频分析的人都清楚，这些过程对资源的消耗极大，也能理解为何每天处理数百万 AI 请求的公司，无法随意允许用户进行临时的视频编辑和解读操作。需要注意的是，几乎所有你尝试使用的 AI API 接口（除了支持新科学研究的全新且短期试用的演示版本），都在以最低资源消耗满足用户需求。这意味着，只要有可能，它们会优先依赖用户提供数据中的现有元数据或检索增强生成（RAG）获取的元数据；只有在绝对必要时，才会为 PDF、文档、单帧图像等更易解析的格式提取元数据。而直接将用户上传的视频通过 CLIP、最新版 YOLO，或任何其他高耗能、耗时长且能真正识别帧内内容、理解视频时序变化的视觉语言模型进行处理，目前还不在考虑范围内。

但这并不意味着论文中所记录的现象完全由 “节省资源” 的架构设计导致。作者指出，在当前最先进的多模态训练范式中，文本始终占据主导地位，这表明 “视觉语言” 要么发展尚不完善，要么在多模态语境中的重要性和信息量较低，至少在目前，人们对它的理解还不够深入。值得一提的是，Notebook LM 生成的那些与视频无关的内容，似乎要么是完全原创的，要么未被谷歌索引 —— 研究人员未能找到任何可能进入训练数据并引发这种输出的网络结果。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-geng-qing-xiang-yu-du-wen-zi-er-fei-kan-shi-pin-shi-jue

AI 多模态推理掩蔽测试文本依赖模态贡献度沙普利值 (Shapley Values)视觉语言模型 (VLMs)视频分析视频问答 (VQA)资源消耗

Like (0)

王浩然作者

0 0

编程平台 Cursor 推出首款自研大语言模型 Composer，承诺四倍速度提升

Previous 2025年11月3日

Meta 研究人员破解 LLM “黑箱”，修复 AI 推理缺陷

Next 2025年11月3日

AI前沿

GrowthX.ai获万美元A轮融资，以AI赋能内容创作

GrowthX.ai公司近日宣布完成万美元的A轮融资，以推动其独特的AI驱动内容创作策略。本轮融资由Madrona Venture Group领投，多位天使投资人跟投。Growth…

王浩然
2025年5月21日
000
AI前沿

雷军 AI 配音骂人在抖音疯传，本人怒了，警惕 Deepfake 泛滥的新时代

请问，长假 7 天，被 AI 用雷军的声音骂了 6 天，是什么体验？雷军本人无辜躺枪，博主们在违法边缘试探或者已经违法，网友短暂地看了热闹然后回归工位，小米法务部两眼一黑，收不回…

点点
2024年10月9日
000
AI前沿

苹果任命前谷歌 Gemini 负责人为新任 AI 主管，加速 Siri 革新与 AI 战略落地

苹果公司正式宣布重大人事调整：任命前谷歌 Gemini 项目工程负责人、微软 AI 高管阿玛尔・苏布拉马尼亚（Amar Subramanya）为新任 AI 副总裁，接替任职七年的约…

王浩然
2025年12月6日
000
AI前沿

Agentic AI试点困局：阻碍落地的核心问题与破局之道

在企业数字化转型的浪潮中，Agentic AI（智能体AI）正成为C-suite眼中的“破局神器”。2025年，企业管理层对将Agentic AI融入业务流程的需求已达白热化，而进…

王浩然
2026年2月4日
000
AI前沿

AI 在气象建模中日益重要的作用：从速度革命到行业变革，重塑极端天气应对能力

随着极端天气事件频发（如本月大西洋突发且快速增强的 “梅利莎飓风”），传统气象预报模型因依赖物理方程、计算缓慢且资源消耗大，已难以应对 “瞬息万变的大气环境”，而 AI 气象模型凭…

王浩然
2025年11月19日
000
AI前沿

人工智能生成的内容如何增加维基百科编辑的工作量

随着 OpenAI 的 GPT 等大型语言模型 (LLM) 的兴起，人工智能生成的垃圾内容占据了越来越多的用户生成的互联网领域，请为维基百科编辑们着想。除了他们通常的工作，即清除糟…

王浩然
2024年10月12日
000
AI前沿

谷歌发布SpeciesNet，一款专为野生动物识别设计的AI模型‌

近日，科技巨头谷歌宣布了一项创新成果——SpeciesNet，这是一款专为野生动物识别任务设计的先进AI模型。SpeciesNet的问世，标志着谷歌在自然保护与生物多样性研究领域迈…

王浩然
2025年3月4日
000
AI前沿

生成式AI工作中的隐形风险：如何应对“影子AI”‌

生成式AI（GenAI）已经从个人在家庭或个人设备上的实验性应用，深入到我们的工作习惯之中，极大地提升了生产效率，但同时也给组织带来了重大的安全风险。敏感的公司数据，无论是故意还是…

王浩然
2025年6月26日
000
AI前沿

技术工艺：黑箱尽头的曙光

在当今科技飞速发展的时代，人工智能（AI）和复杂算法的广泛应用为各个领域带来了巨大的变革与机遇。然而，这些技术背后的 “黑箱” 问题也日益凸显，给人们带来了诸多困扰与担忧。幸运的是…

王浩然
2026年1月12日
000
AI前沿

通用汽车升级电池工厂，挑战中国LFP电池垄断地位‌

在电动汽车市场日益蓬勃发展的背景下，通用汽车（GM）宣布了一项重大决策：将与合作伙伴LG能源解决方案共同升级其Ultium电池工厂，以生产锂铁磷酸（LFP）电池，旨在为其低成本电动…

王浩然
2025年7月16日
000
AI前沿

Visa推出智能商务平台，让AI代理安全刷卡‌

Visa近日宣布推出了一项革命性的新平台——Visa智能商务平台，旨在让人工智能代理代表用户购买产品，从而赋予AI访问人们信用卡的权限，同时确保严格的安全措施。这一系统是在Visa…

王浩然
2025年5月8日
000
AI前沿

德国要求苹果与谷歌下架中国AI应用DeepSeek

近日，德国数据保护机构对一款名为DeepSeek的中国人工智能应用发出了严厉警告，并要求苹果和谷歌两大应用商店立即将该应用从其德国区的平台上移除。这一决定背后，涉及对用户数据安全的…

王浩然
2025年7月2日
000
AI前沿

从试验到盈利：实现可扩展且投资回报率为正的人工智能的真实路径‌

自ChatGPT开启生成式AI时代以来，已经过去了三年，但大多数企业仍然深陷于试验阶段，无法自拔。尽管在人工智能（AI）领域投入了数十亿美元，但大多数企业的AI项目从未走出概念验证…

王浩然
2025年7月6日
000
AI前沿

Zoom 的定制 AI 头像工具可能存在风险

Zoom 希望将你变成一个由 AI 动画制作的、逼真的头像——但要等到明年某个时候。今天，Zoom 在年度开发者大会上宣布了即将推出的功能，该功能将把用户录制的自己的视频片段转换…

王浩然
2024年10月12日
000
AI前沿

中国人工智能公司 MiniMax 发布新模型，声称可与业内最佳模型相媲美

中国公司不断发布可与 OpenAI 和其他美国人工智能公司开发的系统相媲美的人工智能模型。本周，由阿里巴巴和腾讯支持的初创公司MiniMax推出了三款新模型：MiniMax-Te…

王浩然
2025年1月16日
000
AI前沿

像人类一样，AI正在迫使机构重新思考其使命

在人工智能（AI）的浪潮中，我们见证了一场前所未有的认知迁移。这场迁移不仅影响着个体，更在深刻地重塑着我们的社会机构——学校、政府、企业和公民体系。随着AI技术的日益成熟，这些机构…

王浩然
2025年6月10日
000
AI前沿

特斯拉即将进军印度市场，开启销售新篇章‌

在电动汽车行业掀起滔天巨浪的特斯拉，近日再次成为舆论的焦点。据报道，这家全球领先的电动汽车制造商正紧锣密鼓地筹备其在印度市场的销售业务，有望在不久的将来正式进军这一庞大的新兴市场。…

王浩然
2025年7月15日
000
AI前沿

帕尔默·卢基的人工智能防御公司 Anduril 正在俄亥俄州建造一座价值 10 亿美元的工厂

西方的火焰正向东方袭来。科技亿万富翁兼VR 耳机大亨帕尔默·卢基 (Palmer Luckey)创立的人工智能防御公司 Anduril周四宣布计划在俄亥俄州哥伦布市建造一家工厂。…

王浩然
2025年1月21日
000
AI前沿

如果你认为 SearchGPT 已经准备好取代谷歌，那可能只是幻觉

当OpenAI首次推出SearchGPT时，演示表明人们在网上搜索东西的方式将立即永远改变。但是，当人工智能搜索引擎的运行示例被证明存在一些缺陷时，“哇”变成了“哇，这太尴尬了” …

王浩然
2024年9月9日
000
AI前沿

在LLM搜索中，如何让你的品牌更易被发现？Adobe新推出的LLM Optimizer旨在提供解决方案‌

在2025年6月16日的戛纳狮子国际创意节上，Adobe推出了一款名为Adobe LLM Optimizer的全新企业级工具，旨在帮助企业在由生成式人工智能（Generative …

王浩然
2025年6月19日
000

发表回复

Please Login to Comment

AI 更倾向于 “读文字” 而非 “看视频”：视觉语言模型的文本依赖现象

相关推荐

发表回复