AI在医学影像中难以区分左右的困境:最新研究揭示重大缺陷‌

AI在医学影像中难以区分左右的困境:最新研究揭示重大缺陷‌

最新研究表明,以ChatGPT为代表的AI图像模型在解读翻转或旋转的解剖结构时存在严重缺陷,可能导致危险的诊断错误。这项由美德联合团队开展的研究发现,这些模型在医学扫描中经常犯下基础空间认知错误——它们更倾向于猜测器官应该出现的位置,而非实际分析图像内容。更令人担忧的是,研究证实这些模型可能根本没有真正”阅读”用户上传的PDF或图像文件。

许多经常向ChatGPT等大型语言模型上传数据的用户都知道,这些系统并非总是会仔细分析提交的材料。相反,它们往往根据用户提示中的描述做出假设,而非基于实际内容进行判断。要让语言模型承认其答案来源于先验知识、元数据或一般性假设而非上传内容,通常需要反复引导。

核心问题分析
研究团队测试了包括ChatGPT-4o在内的四种领先视觉语言模型识别医学扫描中器官位置的能力。令人惊讶的是,即使代表当前最高水平,这些基础模型的正确率大多仅与随机猜测相当。根本原因在于它们无法摆脱训练数据中的人体解剖学知识,不能真正”观察”呈现给它们的图像。

当扫描图像中的区域通过点标记、字母数字序列等视觉标识明确标注时,模型表现有所改善;而当查询完全不提及器官或解剖结构时,模型准确率最高。这表明当前视觉语言模型内置了强大的解剖学先验知识,它们更倾向于依赖这些知识而非实际分析图像内容。

研究方法创新
为系统评估这一问题,研究人员创建了医学影像相对定位(MIRP)数据集。与现有CT或MRI视觉问答基准不同,MIRP专门测试解剖结构间的相对位置问题,通过随机旋转和翻转阻断模型对常规解剖位置的依赖。数据集源自BTCV和AMOS两个现有数据集,使用TotalSegmentator工具从体积数据中提取解剖平面图像,并通过SimpleITK框架获取轴向切片。

关键测试结果

  1. 基础能力测试‌:当被问及”左肾是否在胃下方”这类标准问题时,所有模型在普通、旋转或翻转CT切片上的准确率均接近50%,表现与随机猜测无异。
  2. 视觉标记影响‌:使用字母、数字或彩色点标记后,GPT-4o和Pixtral略有提升,但JanusPro和Llama3.2几乎未见改善,表明标记本身不足以保证性能提升。
  3. 知识依赖程度‌:在旋转/翻转切片测试中,GPT-4o和Pixtral常给出符合标准解剖位置的错误答案。当去除解剖术语仅保留标记时,GPT-4o字母标记准确率超85%,Pixtral点标记达75%以上,证实它们具备图像分析能力但过度依赖先验知识。
  4. 非医学场景测试‌:使用纯白背景随机标记的简化测试中,Pixtral表现提升,而JanusPro和Llama3.2仍表现不佳,显示其相对定位缺陷不仅限于医学领域。

临床影响警示
这种依赖先验知识的倾向可能导致严重误诊,特别是在解剖变异(如内脏反位)、术后改变或肿瘤移位等情况下。研究团队指出,当前视觉语言模型极难识别”异常”材料——而这正是诊断医学最关键的技能之一。虽然可以通过调整逻辑让系统寻找异常值而非典型结果,但需要极其精细的模型调校以避免噪声干扰。

行业反思与建议
该研究揭示了当前顶尖语言模型最未被充分报道的根本缺陷:除非精心设计提交方式,否则它们不会真正阅读上传文本或分析呈现图像。更关键的是,如果提示文本解释了附加材料的内容,模型会将其视为”目的论”示例,基于先验知识做出大量假设而非实际研究提交内容。

为缓解这一问题,研究团队建议:

  • 开发专门针对异常检测的训练范式
  • 在医疗AI系统中强制设置视觉验证环节
  • 建立更严格的模型行为透明度标准
  • 对关键医疗应用采用混合人类监督架构

这项名为《你的另一个左!视觉语言模型在医学图像中识别相对位置失败》的研究,由德国乌尔姆大学和美国Axiom Bio的七位研究人员共同完成,为医学AI的可靠性评估提供了重要基准。随着AI在放射学等领域的应用扩展,解决这一空间认知缺陷将成为确保诊断安全的关键挑战。

原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/ai-zai-yi-xue-ying-xiang-zhong-nan-yi-qu-fen-zuo-you-de-kun

Like (0)
王 浩然的头像王 浩然作者
Previous 2025年8月9日
Next 2025年8月10日

相关推荐

发表回复

Please Login to Comment