
最新研究表明,以ChatGPT为代表的AI图像模型在解读翻转或旋转的解剖结构时存在严重缺陷,可能导致危险的诊断错误。这项由美德联合团队开展的研究发现,这些模型在医学扫描中经常犯下基础空间认知错误——它们更倾向于猜测器官应该出现的位置,而非实际分析图像内容。更令人担忧的是,研究证实这些模型可能根本没有真正”阅读”用户上传的PDF或图像文件。
许多经常向ChatGPT等大型语言模型上传数据的用户都知道,这些系统并非总是会仔细分析提交的材料。相反,它们往往根据用户提示中的描述做出假设,而非基于实际内容进行判断。要让语言模型承认其答案来源于先验知识、元数据或一般性假设而非上传内容,通常需要反复引导。
核心问题分析
研究团队测试了包括ChatGPT-4o在内的四种领先视觉语言模型识别医学扫描中器官位置的能力。令人惊讶的是,即使代表当前最高水平,这些基础模型的正确率大多仅与随机猜测相当。根本原因在于它们无法摆脱训练数据中的人体解剖学知识,不能真正”观察”呈现给它们的图像。
当扫描图像中的区域通过点标记、字母数字序列等视觉标识明确标注时,模型表现有所改善;而当查询完全不提及器官或解剖结构时,模型准确率最高。这表明当前视觉语言模型内置了强大的解剖学先验知识,它们更倾向于依赖这些知识而非实际分析图像内容。
研究方法创新
为系统评估这一问题,研究人员创建了医学影像相对定位(MIRP)数据集。与现有CT或MRI视觉问答基准不同,MIRP专门测试解剖结构间的相对位置问题,通过随机旋转和翻转阻断模型对常规解剖位置的依赖。数据集源自BTCV和AMOS两个现有数据集,使用TotalSegmentator工具从体积数据中提取解剖平面图像,并通过SimpleITK框架获取轴向切片。
关键测试结果
- 基础能力测试:当被问及”左肾是否在胃下方”这类标准问题时,所有模型在普通、旋转或翻转CT切片上的准确率均接近50%,表现与随机猜测无异。
- 视觉标记影响:使用字母、数字或彩色点标记后,GPT-4o和Pixtral略有提升,但JanusPro和Llama3.2几乎未见改善,表明标记本身不足以保证性能提升。
- 知识依赖程度:在旋转/翻转切片测试中,GPT-4o和Pixtral常给出符合标准解剖位置的错误答案。当去除解剖术语仅保留标记时,GPT-4o字母标记准确率超85%,Pixtral点标记达75%以上,证实它们具备图像分析能力但过度依赖先验知识。
- 非医学场景测试:使用纯白背景随机标记的简化测试中,Pixtral表现提升,而JanusPro和Llama3.2仍表现不佳,显示其相对定位缺陷不仅限于医学领域。
临床影响警示
这种依赖先验知识的倾向可能导致严重误诊,特别是在解剖变异(如内脏反位)、术后改变或肿瘤移位等情况下。研究团队指出,当前视觉语言模型极难识别”异常”材料——而这正是诊断医学最关键的技能之一。虽然可以通过调整逻辑让系统寻找异常值而非典型结果,但需要极其精细的模型调校以避免噪声干扰。
行业反思与建议
该研究揭示了当前顶尖语言模型最未被充分报道的根本缺陷:除非精心设计提交方式,否则它们不会真正阅读上传文本或分析呈现图像。更关键的是,如果提示文本解释了附加材料的内容,模型会将其视为”目的论”示例,基于先验知识做出大量假设而非实际研究提交内容。
为缓解这一问题,研究团队建议:
- 开发专门针对异常检测的训练范式
- 在医疗AI系统中强制设置视觉验证环节
- 建立更严格的模型行为透明度标准
- 对关键医疗应用采用混合人类监督架构
这项名为《你的另一个左!视觉语言模型在医学图像中识别相对位置失败》的研究,由德国乌尔姆大学和美国Axiom Bio的七位研究人员共同完成,为医学AI的可靠性评估提供了重要基准。随着AI在放射学等领域的应用扩展,解决这一空间认知缺陷将成为确保诊断安全的关键挑战。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-zai-yi-xue-ying-xiang-zhong-nan-yi-qu-fen-zuo-you-de-kun