牛津医学研究强调聊天机器人测试中缺失的一环：人类参与‌

王浩然 • 2025年6月15日下午2:00 • AI前沿 • 333 views

近年来，大型语言模型（LLMs）在医疗领域的应用引发了广泛关注。从GPT-4在医学执照考试中的出色表现，到LLMs在医疗咨询方面的潜力，这些模型似乎正逐步改变医疗行业的面貌。然而，一项来自牛津大学的研究却揭示了LLMs在实际应用中的巨大挑战，尤其是在与人类用户的互动中。

‌LLMs的医疗知识VS现实应用‌

研究指出，尽管LLMs在医学知识方面表现出色，能够在测试中准确识别相关疾病，但在实际应用中，人类用户借助LLMs进行自我诊断的效果却大打折扣。牛津大学的研究团队招募了1,298名参与者，模拟患者与LLMs进行互动，以测试其自我诊断能力。结果显示，人类用户在使用LLMs时，正确识别相关疾病的比例仅为34.5%，远低于仅依靠自身方法进行诊断的控制组（47.0%）。

‌人类与LLMs的互动障碍‌

研究深入分析了人类用户与LLMs互动时的问题所在。首先，用户往往无法提供完整或准确的信息给LLMs，导致模型难以做出准确判断。其次，即使LLMs给出了正确的诊断建议，用户也不一定能够正确理解或遵循这些建议。例如，在GPT-4o的对话中，尽管有65.7%的对话至少提到了一个与场景相关的疾病，但最终答案中反映这些相关疾病的比例却不到34.5%。

‌测试与现实的鸿沟‌

这项研究揭示了当前LLMs测试方法的一个重大缺陷：过度依赖非交互式的基准测试，而忽视了LLMs与人类用户互动时的复杂性。正如研究指出的那样，虽然LLMs可以通过医学执照考试等基准测试，但这些测试并不能准确反映其在现实世界中的表现。当用户以模糊、情绪化或非标准的方式表达问题时，LLMs往往难以提供准确且有用的回答。

‌人类与技术的互动是关键‌

研究强调了人类与技术互动的重要性。北卡罗来纳大学教堂山分校文艺复兴计算研究所的用户体验专家Nathalie Volkheimer指出，大型语言模型作为一种工具，需要用户以特定质量的方式提供输入，才能产生高质量的输出。然而，在现实中，用户往往无法做到这一点，尤其是在面对紧急或复杂情况时。

Volkheimer建议，在设计旨在与人类互动的LLMs时，应更加注重人类-技术互动的体验。这包括理解用户需求、目标以及他们与技术的交互方式，并据此制定详细的文档和培训材料。只有这样，才能确保LLMs在实际应用中发挥最大的效用。

‌模拟用户与真实用户的差异‌

研究团队还尝试使用模拟用户来测试LLMs，但结果同样令人失望。尽管模拟用户在技术层面表现更好（正确识别相关疾病的比例为60.7%），但它们并不能真实反映人类用户的行为和思维方式。因此，研究强调，在测试聊天机器人的实际应用能力时，必须引入真实用户进行测试。

‌结论与关键词‌

综上所述，牛津大学的研究强调了在聊天机器人测试中引入人类参与的重要性。通过模拟真实世界的交互场景，我们可以更准确地评估LLMs在实际应用中的表现，并发现其潜在的局限性。这对于推动LLMs在医疗等领域的实际应用具有重要意义。

原创文章，作者：王浩然，如若转载，请注明出处：https://www.dian8dian.com/niu-jin-yi-xue-yan-jiu-qiang-diao-liao-tian-ji-qi-ren-ce

互动障碍人类-技术互动人类参与医学知识大型语言模型实际应用模拟用户测试与现实鸿沟牛津医学研究聊天机器人测试

Like (0)

王浩然作者

0 0

大型推理模型是否真的在“思考”？——苹果研究引发业界热议‌

Previous 2025年6月15日

Meta新世界模型：让机器人在未知环境中灵活操控物体‌

Next 2025年6月15日

AI前沿

Meta 为其下一代Orion AR 眼镜开发了“神经接口”

在Meta Connect 2024 大会上，首席执行官马克·扎克伯格表示，公司正在开发一种“神经接口”，可用于控制其原型Orion AR 眼镜。该界面似乎受到CTRL-labs…

王浩然
2024年9月27日
000
AI前沿

编排代理：以集成、人机交互和企业知识为核心

毫无疑问，人工智能代理将继续成为企业人工智能中快速增长的趋势。但随着越来越多的公司希望部署代理，他们也在寻找一种方法来帮助他们理解这些自主或半自主的人工智能引导机器人将采取的诸多…

王浩然
2024年11月23日
000
AI前沿

Acree发布全新企业级可定制AI模型AFM-4.5B：基于严格过滤的高质量数据训练‌

在AI模型商业化应用加速落地的背景下，专注于企业级AI解决方案的初创公司Acree近日发布了其最新研发的AFM-4.5B模型。这款参数规模达45亿的基础模型凭借其独特的数据处理技术…

王浩然
2025年7月30日
000
AI前沿

机器狗利用人工智能爬楼梯、下山

Deep Robotics 正式推出了其新款机器狗 Lynx，这是一款全地形机器人，它使用轮子和腿的组合来在各种崎岖的地形上行驶。轮腿混合设计将轮子的速度和腿的灵活性结合起来，使…

王浩然
2024年12月2日
000
AI前沿

Meta下一代LLAMA模型或将升级语音功能‌

近日，科技巨头Meta在人工智能领域再传新动向。据悉，Meta正在研发的下一代LLAMA（Large Language Model Family of AI Algorithms）…

王浩然
2025年3月9日
000
AI前沿

Nvidia 的 AI 代理游戏现已推出新模型和编排蓝图

随着Nvidia宣布推出多项新服务和模型以促进 AI 代理的创建和部署，业界继续推动代理 AI 的发展。今天，Nvidia 推出了 Nemotron，这是基于Meta的 Lla…

王浩然
2025年1月8日
000
AI前沿

亚马逊向全美国用户开放AI健康助手，开启医疗AI新赛道

近日，电商巨头亚马逊宣布将旗下Health AI健康助手从One Medical应用拓展至亚马逊官网及移动端应用，这一举措让数千万美国用户无需Prime会员或One Medical…

王浩然
2026年3月11日
000
AI前沿

xAI 凭借“Colossus”人工智能训练系统打破纪录

埃隆·马斯克的xAI推出了其破纪录的 AI 训练系统，被称为“Colossus”。马斯克透露，经过 122 天的准备，xAI 团队已成功将 Colossus 100k H100 …

点点
2024年9月4日
000
AI前沿

解读 OpenAI 的超级碗广告和 Sam Altman 的夸张博客文章

如果您是今年收看 NFL 超级碗 LIX 的近4000 万美国家庭之一，那么除了观看费城老鹰队击败堪萨斯城酋长队之外，您可能还会看到 OpenAI 的广告。这是该公司的首个超级碗…

王浩然
2025年2月11日
000
AI前沿

Turnitin 首席产品官 Annie Chechitelli – 访谈系列

Annie Chechitelli是 Turnitin 的首席产品官，负责监督 Turnitin 应用程序套件，包括学术诚信、评分和反馈以及评估功能。 Turnitin是一家全球性…

点点
2024年9月17日
000
AI前沿

OpenAI 推出 ChatGPT Health，服务 2.3 亿周活跃用户

在医疗健康领域数字化转型的浪潮中，OpenAI 凭借其在人工智能领域的深厚积累和创新能力，做出了一项具有重大影响力的举措 —— 推出 ChatGPT Health，旨在为每周高达 …

王浩然
2026年1月11日
000
AI前沿

埃隆·马斯克的 xAI 搬进了 OpenAI 的旧总部

旧金山的 Mission 区并不以公司办公室而闻名，但它现在是两家全球资金最雄厚的人工智能初创公司的所在地。据《旧金山商业时报》报道，埃隆马斯克的人工智能初创公司 xAI 最近搬…

王浩然
2024年10月4日
000
AI前沿

Mozilla回应新条款风波，重申不会利用用户数据进行AI开发

Mozilla近日就其新隐私条款引发的广泛争议做出了回应。此番风波源于Mozilla对隐私政策的调整，用户担忧其个人数据可能会被用于人工智能（AI）开发。Mozilla在回应中明确…

王浩然
2025年3月3日
000
AI前沿

阿里云开源通义千问：DeepSeek时刻降临，AI智能体时代正式启航‌

全球人工智能领域迎来里程碑式突破——阿里巴巴集团旗下阿里云正式宣布将其自主研发的大模型”通义千问”全面开源。这一战略举措被业界普遍视为中国AI技术发展的&#…

王浩然
2025年9月18日
000
AI前沿

Stack Overflow数据揭示”基本正确”AI代码带来的隐性生产力损耗‌

根据Stack Overflow最新发布的2025年开发者调查报告显示，尽管AI编程工具使用率持续攀升至84%，但开发者对其信任度却出现显著下滑。这份涵盖177个国家49,000多…

王浩然
2025年7月30日
000
AI前沿

拨开炒作迷雾：5 个失败的生成式 AI 试点案例及核心启示

尽管生成式 AI 凭借 “变革法律、零售、营销、物流等行业” 的愿景吸引全球关注，企业投入巨资推进相关项目，但实际落地成效远低于预期。麻省理工学院（MIT）《2025 年商业 AI…

王浩然
2025年11月12日
000
AI前沿

AI医疗工具的隐形偏见：女性和弱势群体面临的诊疗困境‌

在医疗人工智能技术快速发展的今天，一项令人不安的研究发现正在引发行业震动。2025年9月21日发表在Gizmodo网站的调查报告揭示，当前主流的AI医疗诊断工具存在系统性偏见，对女…

王浩然
2025年9月26日
000
AI前沿

海上水泥运输船：航行中制造水泥原料的创新科技‌

航运业正面临严峻的污染问题，而一家公司提出的解决方案不仅能消除船舶的二氧化碳排放，还能将其转化为有用资源。总部位于伦敦的Seabound公司开发了一套碳捕捉系统，可将发动机排放的C…

王浩然
2025年7月20日
000
AI前沿

谷歌联合ISTE+ASCD推出美国最大规模AI教师培训，覆盖600万教育工作者

近日，谷歌宣布与ISTE+ASCD（国际教育技术协会与课程发展监督协会合并后的组织）达成合作，将为美国所有600万名K-12及高等教育阶段的教师提供免费的Gemini AI培训项目…

王浩然
2026年2月26日
000
AI前沿

李开复犀利评析：美国已在 AI 硬件战争中落后中国

全球知名 AI 科学家与投资人李开复，于 2025 年 10 月 22 日通过视频连线，在旧金山 TED AI 大会上发表了罕见直白的观点：美国在 AI 硬件与机器人制造领域正被中…

王浩然
2025年10月26日
000

发表回复

Please Login to Comment

牛津医学研究强调聊天机器人测试中缺失的一环：人类参与‌

相关推荐

发表回复