AI在医学影像中难以区分左右的困境：最新研究揭示重大缺陷‌

王浩然 • 2025年8月9日上午10:00 • AI前沿 • 747 views

最新研究表明，以ChatGPT为代表的AI图像模型在解读翻转或旋转的解剖结构时存在严重缺陷，可能导致危险的诊断错误。这项由美德联合团队开展的研究发现，这些模型在医学扫描中经常犯下基础空间认知错误——它们更倾向于猜测器官应该出现的位置，而非实际分析图像内容。更令人担忧的是，研究证实这些模型可能根本没有真正”阅读”用户上传的PDF或图像文件。

许多经常向ChatGPT等大型语言模型上传数据的用户都知道，这些系统并非总是会仔细分析提交的材料。相反，它们往往根据用户提示中的描述做出假设，而非基于实际内容进行判断。要让语言模型承认其答案来源于先验知识、元数据或一般性假设而非上传内容，通常需要反复引导。

‌核心问题分析‌
研究团队测试了包括ChatGPT-4o在内的四种领先视觉语言模型识别医学扫描中器官位置的能力。令人惊讶的是，即使代表当前最高水平，这些基础模型的正确率大多仅与随机猜测相当。根本原因在于它们无法摆脱训练数据中的人体解剖学知识，不能真正”观察”呈现给它们的图像。

当扫描图像中的区域通过点标记、字母数字序列等视觉标识明确标注时，模型表现有所改善；而当查询完全不提及器官或解剖结构时，模型准确率最高。这表明当前视觉语言模型内置了强大的解剖学先验知识，它们更倾向于依赖这些知识而非实际分析图像内容。

‌研究方法创新‌
为系统评估这一问题，研究人员创建了医学影像相对定位(MIRP)数据集。与现有CT或MRI视觉问答基准不同，MIRP专门测试解剖结构间的相对位置问题，通过随机旋转和翻转阻断模型对常规解剖位置的依赖。数据集源自BTCV和AMOS两个现有数据集，使用TotalSegmentator工具从体积数据中提取解剖平面图像，并通过SimpleITK框架获取轴向切片。

‌关键测试结果‌

‌基础能力测试‌：当被问及”左肾是否在胃下方”这类标准问题时，所有模型在普通、旋转或翻转CT切片上的准确率均接近50%，表现与随机猜测无异。
‌视觉标记影响‌：使用字母、数字或彩色点标记后，GPT-4o和Pixtral略有提升，但JanusPro和Llama3.2几乎未见改善，表明标记本身不足以保证性能提升。
‌知识依赖程度‌：在旋转/翻转切片测试中，GPT-4o和Pixtral常给出符合标准解剖位置的错误答案。当去除解剖术语仅保留标记时，GPT-4o字母标记准确率超85%，Pixtral点标记达75%以上，证实它们具备图像分析能力但过度依赖先验知识。
‌非医学场景测试‌：使用纯白背景随机标记的简化测试中，Pixtral表现提升，而JanusPro和Llama3.2仍表现不佳，显示其相对定位缺陷不仅限于医学领域。

‌临床影响警示‌
这种依赖先验知识的倾向可能导致严重误诊，特别是在解剖变异(如内脏反位)、术后改变或肿瘤移位等情况下。研究团队指出，当前视觉语言模型极难识别”异常”材料——而这正是诊断医学最关键的技能之一。虽然可以通过调整逻辑让系统寻找异常值而非典型结果，但需要极其精细的模型调校以避免噪声干扰。

‌行业反思与建议‌
该研究揭示了当前顶尖语言模型最未被充分报道的根本缺陷：除非精心设计提交方式，否则它们不会真正阅读上传文本或分析呈现图像。更关键的是，如果提示文本解释了附加材料的内容，模型会将其视为”目的论”示例，基于先验知识做出大量假设而非实际研究提交内容。

为缓解这一问题，研究团队建议：

开发专门针对异常检测的训练范式
在医疗AI系统中强制设置视觉验证环节
建立更严格的模型行为透明度标准
对关键医疗应用采用混合人类监督架构

这项名为《你的另一个左！视觉语言模型在医学图像中识别相对位置失败》的研究，由德国乌尔姆大学和美国Axiom Bio的七位研究人员共同完成，为医学AI的可靠性评估提供了重要基准。随着AI在放射学等领域的应用扩展，解决这一空间认知缺陷将成为确保诊断安全的关键挑战。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/ai-zai-yi-xue-ying-xiang-zhong-nan-yi-qu-fen-zuo-you-de-kun

MIRP数据集临床安全医学AI 异常检测放射学模型可靠性空间认知视觉语言模型解剖学先验诊断错误

Like (0)

王浩然作者

0 0

活体智能：AI传感器与生物技术如何塑造认知系统的未来‌

Previous 2025年8月9日

Google虚拟卫星AlphaEarth如何重新定义全球地球测绘‌

Next 2025年8月10日

AI前沿

人工智能搜索大战升温：Genspark 按需添加由 Claude 提供支持的财务报告

早在 2024 年 6 月——快速发展的生成式 AI 领域的永恒——一家由微软、谷歌和百度校友创立的初创公司MainFunc 推出了其首款产品 Genspark，一款 AI 搜索引…

王浩然
2024年11月17日
000
AI前沿

体验时代：自我学习的AI代理将遍布网络，如何做好准备

在人工智能领域，两位知名科学家——大卫·西尔弗和理查德·萨顿在一篇新论文中提出了一个引人注目的观点：人工智能即将进入一个全新的阶段，即“体验时代”。在这个阶段，AI系统将越来越少地…

王浩然
2025年5月6日
000
AI前沿

白宫 “创世纪任务”：美国 AI 版 “曼哈顿计划” 的核心内容与企业应对指南

美国总统特朗普正式签署行政命令，启动名为 “创世纪任务（Genesis Mission）” 的国家级 AI 科研计划。该计划被白宫比作二战时期的 “曼哈顿计划”，旨在通过整合美国全…

王浩然
2025年11月26日
000
AI前沿

“先收获，后解密”：黑客为何在等待量子计算

黑客们正在等待量子计算破解密码并大规模解密多年来被盗信息的那一刻。为了做好准备，他们正在收集比平时更多的加密数据。以下是企业可以采取的应对措施。黑客为什么要窃取加密数据？大多数…

王浩然
2024年9月22日
000
AI前沿

Google 的 Gemini Live 现已在 Android 上免费提供

谷歌公司周四宣布，Gemini Live 作为一项仅限订阅用户使用的功能首次推出，一个月后，该聊天机器人将免费向更多用户开放。 Gemini Live 是谷歌针对OpenAI Ch…

王浩然
2024年9月15日
000
AI前沿

FineVoice实测：30秒完成AI语音克隆，全栈音频工具到底香不香？

在内容创作和商业传播领域，音频内容的需求正以惊人速度增长。据行业估算，近80%的内容团队已将AI工具纳入工作流，其中语音技术更是增长最快的细分领域之一。当你需要快速将脚本转化为专业…

王浩然
2026年3月6日
000
AI前沿

Gemini 3.1 Pro发布：推理性能翻倍，AI基准测试再破纪录

2月19日，谷歌推出旗舰AI模型Gemini 3.1 Pro，这一更新在保持与前代产品相同定价的前提下，将推理性能提升了一倍以上，再次刷新了大语言模型的能力边界。此次更新最引人瞩…

王浩然
2026年2月24日
000
AI前沿

从 AI 代理到企业预算，20 家风险投资公司分享了他们对 2025 年企业技术的预测

尽管人工智能被一些人誉为工业革命以来最大的技术突破，但企业——可以说是该技术最大的潜在客户群——采用人工智能的速度却很慢。尽管一些投资者预测 2024 年将是企业开始采用更多 A…

王浩然
2024年12月31日
000
AI前沿

周三亚马逊Alexa活动前瞻‌

在科技日新月异的今天，智能助手已成为我们生活中不可或缺的一部分。亚马逊的Alexa作为智能助手的佼佼者，其每一次更新都备受瞩目。本文将为您揭秘周三即将举行的亚马逊Alexa活动，带…

王浩然
2025年2月27日
000
AI前沿

大规模削减云浪费：Akamai利用Kubernetes编排的AI代理节省70%成本

在当今这个生成式AI蓬勃发展的时代，云成本达到了前所未有的高度。然而，高昂的费用并非仅因为企业使用了更多的计算能力，而是因为使用效率低下。据预测，今年企业将在不必要的云支出上浪费高…

王浩然
2025年6月23日
000
AI前沿

Creatio 通过 Energy 发布代理 AI 实现 CRM 自动化

一位风险投资家表示，谷歌的 NotebookLM生成式 AI 应用程序至少可以在某些用例中取代 CRM，而 CRM 提供商Creatio则进行了反击。 Creatio 今天宣布了一…

王浩然
2024年11月1日
000
AI前沿

AI竞赛白热化：对企业的深远影响

在当今这个科技飞速发展的时代，AI竞赛已经不再是理论上的担忧，而是成为了一场实实在在的、涉及科技巨头、初创企业乃至国家层面的激烈竞争。这场竞赛不仅重塑了技术格局，更对企业的战略规划…

王浩然
2025年5月27日
000
AI前沿

IBM研究报告揭示：影子AI安全漏洞平均造成67万美元损失 97%企业缺乏有效管控措施

企业面临的影子AI安全危机根据IBM最新发布的研究报告显示，未经企业IT部门批准而由员工私自使用的AI工具（被称为”影子AI”）导致的数据泄露事件，平均给…

王浩然
2025年8月6日
000
AI前沿

我们已经从 RPA 走了很长一段路：AI 代理如何彻底改变自动化

在过去的一年里，自动化竞赛愈演愈烈，人工智能代理逐渐成为企业效率的终极变革者。虽然生成式人工智能工具在过去三年中取得了重大进展——成为企业工作流程中的重要助手——但现在人们的注意力…

王浩然
2024年12月16日
000
AI前沿

超级碗 LIX 网络安全策略：NFL 的 CISO 如何应对 AI 威胁和数字攻击

保护超级碗 LIX 和所有备受瞩目的国家橄榄球联盟 (NFL) 赛事免受可能包括武器化 AI、端点攻击、深度伪造和精细的社会工程技能在内的对抗性攻击，需要经验丰富、久经考验的能力和…

王浩然
2025年1月30日
000
AI前沿

新研究显示，ChatGPT 搜索可能会被欺骗并误导用户

英国《卫报》发现，本月上线的人工智能搜索引擎 ChatGPT Search可能会被欺骗而生成完全误导性的摘要。 ChatGPT 的搜索功能旨在通过总结网页的产品评论等方式加快浏览速…

王浩然
2024年12月27日
000
AI前沿

Meta 的 Hyperscape 可让您在 VR 中扫描和探索现实空间

Meta于周三在 Meta Connect 2024上宣布推出一款名为 Hyperscape 的全新 VR 应用，该应用可以高保真渲染现实空间，因此您可以戴着 Quest 头戴式设…

王浩然
2024年9月28日
000
AI前沿

Cursor收购企业级初创公司Koala，向GitHub Copilot发起挑战‌

2025年7月18日，人工智能编码应用Cursor背后的初创公司Anysphere正在通过收购AI企业级初创公司的顶尖人才来增强其与微软GitHub Copilot的竞争力，并吸引…

王浩然
2025年7月21日
000
AI前沿

全球物流中的人工智能、可持续性和产品管理：探索新前沿

在我们探讨可持续性方面之前，让我们简单回顾一下人工智能如何彻底改变全球物流：路线优化人工智能算法正在改变路线规划，远远超出了简单的 GPS 导航。例如，UPS 的 ORION（…

点点
2024年9月20日
000
AI前沿

Concourse获1200万美元A轮融资，AI代理平台向全规模财务团队开放

在AI技术深度渗透各行业的当下，财务领域的智能化转型正迎来新的突破口。近日，专注于财务AI代理平台的Concourse公司完成了1200万美元的A轮融资，同时宣布其AI代理平台正式…

王浩然
2026年2月1日
000

发表回复

Please Login to Comment

AI在医学影像中难以区分左右的困境：最新研究揭示重大缺陷‌

相关推荐

发表回复