1
2
3
4
5
6
英文名称:Towards Conversational Diagnostic AI
中文名称:向对话式诊断人工智能
链接: http://arxiv.org/pdf/2401.05654v1
作者: Tao Tu, Anil Palepu, Mike Schaekermann, Khaled Saab, Jan Freyberg, Ryutaro Tanno, Amy Wang, Brenna Li, Mohamed Amin, Nenad Tomasev, Shekoofeh Azizi, Karan Singhal, Yong Cheng, Le Hou, Albert Webson, Kavita Kulkarni, S Sara Mahdavi, Christopher Semturs, Juraj Gottweis, Joelle Barral, Katherine Chou, Greg S Corrado, Yossi Matias, Alan Karthikesalingam, Vivek Natarajan
机构:
日期:2024-01-11

摘要

  • 目标:开发一种基于大型语言模型的人工智能系统 AMIE,以优化诊断对话。
  • 方法:在随机双盲交叉研究中,将 AMIE 的表现与初级保健医生(PCP)进行比较,使用文本咨询和经过验证的患者角色进行评估。
  • 结论:AMIE 在诊断准确性方面表现更佳,并在 32 个临床有意义的评估标准中超越了 28 个,受到专业医生和患者角色的认可。

读后感

针对疑难杂症优于全科医生,辅助更好转诊。

AMIE:一个基于大型语言模型的 AI 诊断对话系统

2.1 真实世界数据

AMIE 在开发过程中使用的多种真实世界数据集。这些数据集涵盖了多项任务,包括医学问答、医学推理、医学总结和医疗对话。

  • 医学推理:使用了 MedQA 数据集,包含美国医学执照考试(USMLE)风格的多项选择题,共有 11,450 个训练集问题和 1,273 个测试集问题。另外,专家还对 191 个问题进行了逐步推理,以得出正确答案。
  • 长文医学问答:使用了专家编写的长篇回答的数据集,回答来自 HealthSearchQA、LiveQA 和 MultiMedBench 中的 64 个问题。
  • 医学总结:使用来自 MIMIC-III 数据库的 65 篇由临床医生编写的医疗笔记摘要。MIMIC-III 包括各种类型的医疗记录,共约 200 万条笔记,选取了其中每种类型的 5 篇笔记进行训练数据扩充。
  • 医疗对话:使用了一个匿名化的数据集,其中包含 98,919 段医疗对话的音频转录文本。这些对话来自超过 1,000 名美国临床医生,跨 51 个医学专科和涉及 168 种医疗情况。每段对话平均有 149.8 个回合,标注了患者人口统计数据、就诊原因和诊断类型等信息。在研究过程中,仅选择了医生和患者之间的对话,去掉了旁白注释。这些对话被分成训练集(90%)和验证集(10%)以进行模型训练和验证。

2.2 模拟对话学习环境和 AMIE 自我对弈

通过被动收集现实世界的临床对话会面临两个主要挑战:一是现有数据往往无法涵盖广泛的医疗状况和场景,因此限制了模型的可扩展性和全面性;二是现实对话转录数据通常较为嘈杂,含有模糊的语言、打断、不符合语法的语句以及隐含的参考。这些因素可能限制 AMIE(模型平台)的知识、能力和适用性。

为了解决这些问题,研究设计了一个基于自我对弈的模拟学习环境,在虚拟护理环境下进行诊断医疗对话。这种方法能帮助 AMIE 在多种医疗状况和场景下扩展其知识与能力。在这个环境中,研究通过不断发展的模拟对话集合和一个静态的医学问答、推理、摘要与现实世界对话数据的语料库(见图 1),来反复微调 AMIE。

该过程包括两个自我对弈循环:

  • “内部”自我对弈循环:AMIE 利用情境批评反馈,在与一个 AI 患者代理的模拟对话中改进其行为。
  • “外部”自我对弈循环:将改进后的模拟对话集并入后续的微调迭代中,新版本的 AMIE 可以再次参与内部循环,从而形成一个持续学习的循环。

研究在每次微调迭代中生成了 11,686 段对话,涵盖了 5,230 种不同的医疗状况。从三个数据集中选择条件:

  • Health QA 数据集,包含 613 个常见医疗状况。
  • MalaCards 人类疾病数据库,其中包含 18,455 种不常见疾病。
  • MedicineNet 疾病与状况索引,其中包含 4,617 种不常见状况。

在每次自我对弈迭代中,为每个 613 个常见状况生成四段对话,对于从 MedicineNet 和 MalaCards 中随机选择的 4,617 个不常见状况生成两段对话。平均模拟对话长度为 21.28 轮。

使用模拟对话的方法解决了高质量、标注完善的现实世界会话数据有限的问题,同时提高了模型在多样化医疗场景中的泛化和适应能力。通过利用这种自我对弈的模式,AMIE 能够在患者交互中不断学习并改善其会话和诊断能力。

2.2.1 模拟对话数据管理

为了大规模地产出高质量的模拟对话,我们开发了一种新的多代理框架,该框架包括三个关键组成部分:

  • 情景生成器:AMIE 利用网络搜索,根据特定的医疗状况制作独特的患者情景。
  • 模拟对话生成器:三个 LLM 代理分别扮演患者代理、医生代理和主持人角色,开展一个回合接一个回合的对话,模拟真实的诊断互动。
  • 自我对弈评论员:第四个 LLM 代理充当评论员,以便给予医生代理反馈以实现自我改进。值得注意的是,AMIE 在这个框架中充当所有代理角色。我们在下面详细描述了每个组成部分。 ### 2.3 指令微调

AMIE 在基础大型语言模型 PaLM 2 的基础上进行了指令微调,以增强其在医疗对话和推理方面的能力。

使用任务专用的指令来微调 AMIE,让它在医疗对话中扮演患者或医生角色,进行医学问答和推理,并总结电子健康记录(EHR)笔记;初始微调使用静态数据集,而后续微调使用自我对话生成的数据。

在对话生成任务中,AMIE 被训练为基于之前的对话预测下一轮交流,担任患者角色时根据患者情景设定作答,担任医生角色时则作为富有同情心的临床医生进行询问,以获得准确诊断。

在 EHR 笔记摘要任务中,AMIE 基于提供的临床笔记生成摘要;在医学推理、问答和长篇回应生成任务中,设置与 singhal2023towards 相同,除了对话生成和长篇回应生成任务,其他任务均结合少量样例和任务指令提供额外背景。

2.4 在线推理的推理链

“推理链”是指一系列连续的模型调用,每个步骤都依赖于之前步骤的输出。具体来说,我们使用了三个步骤的推理过程,描述如下:

  • 分析患者信息:在当前对话历史的基础上,AMIE 被指示进行以下操作:1)总结患者的阳性和阴性症状,以及相关的医疗/家庭/社会历史和人口统计信息,2)提出当前的鉴别诊断,3)记录准确诊断所需的缺失信息,以及 4)评估对当前鉴别诊断的信心并突出其紧迫性。
  • 制定回应和行动:基于对话历史和第 1 步的输出,AMIE 执行以下操作:1)生成对患者最后一条信息的响应,并制定进一步问题以获取缺失信息并完善鉴别诊断。2)如果必要,建议立即采取行动,例如去急诊室。如果基于可用信息对诊断有信心,则呈现鉴别诊断。
  • 优化回应:AMIE 根据对话历史和前几步的输出,修改其先前的输出以满足特定标准。这些标准主要与回应的真实性和格式有关(例如,避免在患者事实上的错误和不必要的重复,表现出同理心,并以清晰的格式展示)。
  • 这种推理链策略使 AMIE 能够在当前对话的基础上逐步优化其回应,以提供明智且有依据的回复。