AI 更倾向于 “读文字” 而非 “看视频”:视觉语言模型的文本依赖现象

AI 更倾向于 “读文字” 而非 “看视频”:视觉语言模型的文本依赖现象

即便一些 AI 模型专为处理视频任务设计,要让它们真正分析视频内容并发表评论仍异常困难,相比之下,它们对文字内容的处理意愿和能力要突出得多。

日常生活中,若你尝试向 ChatGPT 或类似的主流视觉语言模型上传一段短视频,可能会惊讶地发现这些模型无法直接解析视频。以 ChatGPT-4o + 为例,它虽能分析 JPEG、PNG 格式的单帧图像,却要求用户自行提取视频帧并以图像形式上传,之后才会对这些图像进行评论。对于 OpenAI 的 GPT 系列模型,若想让其为视频生成 AI 叙事轨道,用户需费力地从视频中提取完整的帧序列并输入模型。但无论是通过调用大型程序中的函数,还是使用 FFmpeg 或各类免费、付费的视频编辑工具提取帧,这一系列转换工作都需用户自行完成,AI 模型并未提供便捷的视频直接处理功能。

从本质来看,ChatGPT 这类大规模产品在视频分析方面的局限,很大程度上源于资源消耗问题。若要为每个 AI 实例配备主流视频编解码器,且在数百万用户可能每天使用该功能的情况下,投入计算资源去处理磁盘占用量大、CPU 负载高的视频帧提取过程,这绝非小事,需要权衡巨大的资源成本与实际需求。此外,时序分析与单帧分析的结果差异显著,比如一个人带着愉悦心情进入房间,随后却发现一具尸体,这种情节的变化只有通过时序分析才能完整捕捉。即便对于短片段视频,要分析其完整的时序 “校验和”,不仅是资源密集型任务,还属于专业研究领域,目前像光流(Optical Flow)这样的框架仍在持续开发中,该框架能将一段视频 “展开”,使其可被当作静态文档处理,为视觉语言模型(VLMs)提供所需的时序连续性,同时也能在视觉特效工作流中充当结构指导。

尽管存在这些技术难题,谷歌的 Notebook LM 以及新版 ChatGPT 等模型,因能读取视频相关的元数据(即能为视频提供上下文的嵌入式文本内容),并未禁止用户上传视频文件,有时甚至会尝试解读无任何元数据的视频。但实际效果却不尽如人意,有实验显示,将一段来自 2021 年意大利电影《上帝之手》的 6 秒无意义片段上传至 Notebook LM,且确保片段的元数据和文件名中均无有用文本时,Notebook LM 竟生成了与该视频完全无关的内容,甚至还虚构出一段毫无关联的 5 分钟双人播客,这种 “幻觉式” 解读充分暴露了 AI 在无文本辅助时处理视频的短板。值得注意的是,Notebook LM 和 ChatGPT 虽接受 YouTube 视频作为输入,但前提是视频包含可解析的文本层注释或字幕(不包括嵌入视频画面的光栅化字幕)。这意味着,对视频内容进行实际查看、聆听并进行语义解读的艰巨工作 —— 这也是 YouTube 出于版权保护及待推出的身份保护系统的法律要求所必需的 —— 需在用户上传后,待系统有空闲资源分配时才能进行。由此可见,真正的视频解读不仅成本高昂,还十分耗费算力,即便专为视频处理设计的 AI 模型,也更倾向于读取文本而非分析视频。

英国布里斯托尔大学一篇名为《A Video Is Not Worth a Thousand Words》的新论文,进一步验证了这一现象。论文作者通过研究得出结论:当前最先进的视觉语言模型(VLMs),即便其设计初衷是更深入地分析视频并支持视频问答(VQA),但只要有机会,仍会默认依赖文本信息。研究发现,当同时向这些模型提供视频画面、文字问题及多项选择题答案时,模型的选择往往基于文本中的模式,而非视频画面所呈现的内容 —— 在很多情况下,即便完全去掉问题,模型的表现也相差无几。这种行为类似于习惯性的 “走捷径” 或 “作弊”,对大多数模型而言,能否识别答案选项中的模式最为关键;只有当任务难度增加,比如增加更多答案选项时,AI 才会开始更关注视频内容。

为深入探究模型决策过程中各输入因素的作用,研究人员采用了博弈论中的沙普利值(Shapley Values)方法。该方法最初用于在联盟中公平分配收益,如今被用来评估视频帧或文本组件(注释、字幕等)在视频问答任务中对模型决策的 “贡献度”。通过系统地测试添加或移除某一组件对模型决策的影响,可判断该组件在模型得出最终答案过程中的重要性。考虑到数据类型的多样性,研究人员对沙普利值进行了调整,以适应多模态数据处理,将视频和文本组件分开对待,衡量它们对模型输出的不同影响,进而判断模型是真正解读了视频内容,还是借助文字线索走了捷径。

研究还定义了两个简单指标来比较不同模态(视频、问题、答案)对模型决策的贡献程度。其一为 “模态贡献度”(Modality Contribution),通过汇总所有可用沙普利值,计算每种输入类型的贡献占比,以此衡量各模态对模型决策的整体影响;其二为 “每特征贡献度”(Per-Feature Contribution),考虑到不同模态的特征数量差异(如视频的特征数量远多于文本),该指标通过计算每种特征的平均沙普利值并进行比较,来确定哪种模态的影响力更占主导。

在实验设计上,为确保测试结果的广泛适用性和通用性,研究人员选取了 6 个具有不同特征的视觉语言模型,这些模型在上下文长度、发布时间(框架推出时长)及架构配置上均存在差异,分别是 FrozenBiLM、InternVideo、VideoLLaMA2、VideoLLaMA3、LLaVa-Video(基于 Qwen2)和 LongVA(同样基于 Qwen2)。同时,选择了 4 个具有多样性的数据集:EgoSchema(一个需完整观看视频才能完成问答的视频问答数据集)、HD-EPIC(以厨房场景为主,包含超长视频的数据集)、MVBench(整合其他数据集内容的精选数据集)和 LVBench(针对超长视频设计问答查询的数据集)。研究人员从这些数据集中设计了 60 个问题,每种问题类型各 10 个。

实验结果通过贡献度指标清晰显示,大多数模型对视频的依赖程度远低于对文本的依赖,尤其在逐帧分析时更为明显。即便视频在整体贡献度上表现尚可,但其每特征影响力往往微乎其微,这表明模型可能只是在整体上利用了视频信息,却并未关注单个帧的细节。VideoLLaMA3 是个例外,它对视觉信息的依赖更强,尤其在处理 LVBench 中的长序列视频时表现突出。从文本角度看,在性能较强的模型中,问题对决策的影响通常大于答案,这在 EgoSchema 等数据集中表现得尤为明显 —— 该数据集中的问题更长、更贴近自然语言,而答案则较短且有时具有一定模式性。不过,MVBench 数据集的情况有所不同,其二元答案结构使得答案标记的重要性看似有所提升。但总体而言,在所有模型和数据集中,视觉信息始终处于次要地位,文本信息承担了大部分决策 “重任”。

论文中提到:“对于长上下文模型,视频的贡献度大幅降低,这意味着逐帧来看,视频的沙普利值远低于文本特征的沙普利值。尽管视频作为一种模态仍具有重要意义,但这一现象表明,视频单个帧的沙普利值更接近零,模型对视频帧的关注远不如对文本的关注那样有针对性。” 为进一步测试各输入部分(视频、文本等)对模型准确性的影响,研究人员还进行了掩蔽测试 —— 故意隐藏一个或多个输入部分,观察模型准确性的变化。若移除某个输入后模型性能大幅下降,说明该输入至关重要;若性能基本不变,则表明模型对该输入的依赖程度较低,这种测试类似于迭代消融研究。

掩蔽测试结果显示,在四个视频问答基准测试中,答案(选择题中的文本答案)对模型决策的影响最大。通常情况下,掩蔽答案会导致模型准确性大幅下降,甚至接近随机水平;而掩蔽问题对模型性能的影响通常较小,在某些情况下,移除问题后模型准确性甚至会有所提升,这意味着模型有时只是将答案与视觉或文本线索进行匹配,而非真正评估问题。不同模型对视频的依赖程度也存在差异,部分模型在无视频输入时仍能保持较高准确性,这进一步证实了当前许多模型中视频特征的贡献有限。

研究人员还测试了通过增加错误答案选项,能否迫使模型更多依赖视频信息。结果显示,当错误选项较简单且来自其他问题时,模型性能会提升,因为它们可通过文本模式匹配得出答案;但当错误选项增加到 10 个或更多且彼此无关时,模型会开始更多地依赖视频和问题信息。以 VideoLLaMA3 为例,在 EgoSchema 数据集上掩蔽视频后,其准确性下降了 40%,在 LVBench 数据集上下降了 15%,这表明增加答案数量确实能促使模型摆脱文本捷径,转向真正的多模态推理

此外,研究人员还通过热力图展示了各模型输入的沙普利值分布,结果显示,热力图右侧(代表问题和答案的文本部分)的沙普利值幅度远大于左侧(代表视频帧的视觉部分),视频模态的贡献远低于问题和答案的文本贡献。在 EgoSchema 数据集的一个标注示例中,通过沙普利值筛选出的 16 个 “最重要” 视频帧,其影响力均远低于问题和答案中的文字,视觉线索零散且无规律,而 “椅子”“栅栏” 等名词却能引导模型做出正确或错误的选择。

综合来看,任何涉足视频编辑或视频分析的人都清楚,这些过程对资源的消耗极大,也能理解为何每天处理数百万 AI 请求的公司,无法随意允许用户进行临时的视频编辑和解读操作。需要注意的是,几乎所有你尝试使用的 AI API 接口(除了支持新科学研究的全新且短期试用的演示版本),都在以最低资源消耗满足用户需求。这意味着,只要有可能,它们会优先依赖用户提供数据中的现有元数据或检索增强生成(RAG)获取的元数据;只有在绝对必要时,才会为 PDF、文档、单帧图像等更易解析的格式提取元数据。而直接将用户上传的视频通过 CLIP、最新版 YOLO,或任何其他高耗能、耗时长且能真正识别帧内内容、理解视频时序变化的视觉语言模型进行处理,目前还不在考虑范围内。

但这并不意味着论文中所记录的现象完全由 “节省资源” 的架构设计导致。作者指出,在当前最先进的多模态训练范式中,文本始终占据主导地位,这表明 “视觉语言” 要么发展尚不完善,要么在多模态语境中的重要性和信息量较低,至少在目前,人们对它的理解还不够深入。值得一提的是,Notebook LM 生成的那些与视频无关的内容,似乎要么是完全原创的,要么未被谷歌索引 —— 研究人员未能找到任何可能进入训练数据并引发这种输出的网络结果。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-geng-qing-xiang-yu-du-wen-zi-er-fei-kan-shi-pin-shi-jue

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年11月3日
Next 2025年11月3日

相关推荐

发表回复

Please Login to Comment