
近年来,大型语言模型(LLMs)在医疗领域的应用引发了广泛关注。从GPT-4在医学执照考试中的出色表现,到LLMs在医疗咨询方面的潜力,这些模型似乎正逐步改变医疗行业的面貌。然而,一项来自牛津大学的研究却揭示了LLMs在实际应用中的巨大挑战,尤其是在与人类用户的互动中。
LLMs的医疗知识VS现实应用
研究指出,尽管LLMs在医学知识方面表现出色,能够在测试中准确识别相关疾病,但在实际应用中,人类用户借助LLMs进行自我诊断的效果却大打折扣。牛津大学的研究团队招募了1,298名参与者,模拟患者与LLMs进行互动,以测试其自我诊断能力。结果显示,人类用户在使用LLMs时,正确识别相关疾病的比例仅为34.5%,远低于仅依靠自身方法进行诊断的控制组(47.0%)。
人类与LLMs的互动障碍
研究深入分析了人类用户与LLMs互动时的问题所在。首先,用户往往无法提供完整或准确的信息给LLMs,导致模型难以做出准确判断。其次,即使LLMs给出了正确的诊断建议,用户也不一定能够正确理解或遵循这些建议。例如,在GPT-4o的对话中,尽管有65.7%的对话至少提到了一个与场景相关的疾病,但最终答案中反映这些相关疾病的比例却不到34.5%。
测试与现实的鸿沟
这项研究揭示了当前LLMs测试方法的一个重大缺陷:过度依赖非交互式的基准测试,而忽视了LLMs与人类用户互动时的复杂性。正如研究指出的那样,虽然LLMs可以通过医学执照考试等基准测试,但这些测试并不能准确反映其在现实世界中的表现。当用户以模糊、情绪化或非标准的方式表达问题时,LLMs往往难以提供准确且有用的回答。
人类与技术的互动是关键
研究强调了人类与技术互动的重要性。北卡罗来纳大学教堂山分校文艺复兴计算研究所的用户体验专家Nathalie Volkheimer指出,大型语言模型作为一种工具,需要用户以特定质量的方式提供输入,才能产生高质量的输出。然而,在现实中,用户往往无法做到这一点,尤其是在面对紧急或复杂情况时。
Volkheimer建议,在设计旨在与人类互动的LLMs时,应更加注重人类-技术互动的体验。这包括理解用户需求、目标以及他们与技术的交互方式,并据此制定详细的文档和培训材料。只有这样,才能确保LLMs在实际应用中发挥最大的效用。
模拟用户与真实用户的差异
研究团队还尝试使用模拟用户来测试LLMs,但结果同样令人失望。尽管模拟用户在技术层面表现更好(正确识别相关疾病的比例为60.7%),但它们并不能真实反映人类用户的行为和思维方式。因此,研究强调,在测试聊天机器人的实际应用能力时,必须引入真实用户进行测试。
结论与关键词
综上所述,牛津大学的研究强调了在聊天机器人测试中引入人类参与的重要性。通过模拟真实世界的交互场景,我们可以更准确地评估LLMs在实际应用中的表现,并发现其潜在的局限性。这对于推动LLMs在医疗等领域的实际应用具有重要意义。
原创文章,作者:王 浩然,如若转载,请注明出处:https://www.dian8dian.com/niu-jin-yi-xue-yan-jiu-qiang-diao-liao-tian-ji-qi-ren-ce