面向对话式诊断人工智能
1 | 英文名称:Towards Conversational Diagnostic AI |
摘要
- 目标:开发一种基于大型语言模型的人工智能系统 AMIE,以优化诊断对话。
- 方法:在随机双盲交叉研究中,将 AMIE 的表现与初级保健医生(PCP)进行比较,使用文本咨询和经过验证的患者角色进行评估。
- 结论:AMIE 在诊断准确性方面表现更佳,并在 32 个临床有意义的评估标准中超越了 28 个,受到专业医生和患者角色的认可。
读后感
针对疑难杂症优于全科医生,辅助更好转诊。
AMIE:一个基于大型语言模型的 AI 诊断对话系统
2.1 真实世界数据
AMIE 在开发过程中使用的多种真实世界数据集。这些数据集涵盖了多项任务,包括医学问答、医学推理、医学总结和医疗对话。
- 医学推理:使用了 MedQA 数据集,包含美国医学执照考试(USMLE)风格的多项选择题,共有 11,450 个训练集问题和 1,273 个测试集问题。另外,专家还对 191 个问题进行了逐步推理,以得出正确答案。
- 长文医学问答:使用了专家编写的长篇回答的数据集,回答来自 HealthSearchQA、LiveQA 和 MultiMedBench 中的 64 个问题。
- 医学总结:使用来自 MIMIC-III 数据库的 65 篇由临床医生编写的医疗笔记摘要。MIMIC-III 包括各种类型的医疗记录,共约 200 万条笔记,选取了其中每种类型的 5 篇笔记进行训练数据扩充。
- 医疗对话:使用了一个匿名化的数据集,其中包含 98,919 段医疗对话的音频转录文本。这些对话来自超过 1,000 名美国临床医生,跨 51 个医学专科和涉及 168 种医疗情况。每段对话平均有 149.8 个回合,标注了患者人口统计数据、就诊原因和诊断类型等信息。在研究过程中,仅选择了医生和患者之间的对话,去掉了旁白注释。这些对话被分成训练集(90%)和验证集(10%)以进行模型训练和验证。
2.2 模拟对话学习环境和 AMIE 自我对弈
通过被动收集现实世界的临床对话会面临两个主要挑战:一是现有数据往往无法涵盖广泛的医疗状况和场景,因此限制了模型的可扩展性和全面性;二是现实对话转录数据通常较为嘈杂,含有模糊的语言、打断、不符合语法的语句以及隐含的参考。这些因素可能限制 AMIE(模型平台)的知识、能力和适用性。
为了解决这些问题,研究设计了一个基于自我对弈的模拟学习环境,在虚拟护理环境下进行诊断医疗对话。这种方法能帮助 AMIE 在多种医疗状况和场景下扩展其知识与能力。在这个环境中,研究通过不断发展的模拟对话集合和一个静态的医学问答、推理、摘要与现实世界对话数据的语料库(见图 1),来反复微调 AMIE。
该过程包括两个自我对弈循环:
- “内部”自我对弈循环:AMIE 利用情境批评反馈,在与一个 AI 患者代理的模拟对话中改进其行为。
- “外部”自我对弈循环:将改进后的模拟对话集并入后续的微调迭代中,新版本的 AMIE 可以再次参与内部循环,从而形成一个持续学习的循环。
研究在每次微调迭代中生成了 11,686 段对话,涵盖了 5,230 种不同的医疗状况。从三个数据集中选择条件:
- Health QA 数据集,包含 613 个常见医疗状况。
- MalaCards 人类疾病数据库,其中包含 18,455 种不常见疾病。
- MedicineNet 疾病与状况索引,其中包含 4,617 种不常见状况。
在每次自我对弈迭代中,为每个 613 个常见状况生成四段对话,对于从 MedicineNet 和 MalaCards 中随机选择的 4,617 个不常见状况生成两段对话。平均模拟对话长度为 21.28 轮。
使用模拟对话的方法解决了高质量、标注完善的现实世界会话数据有限的问题,同时提高了模型在多样化医疗场景中的泛化和适应能力。通过利用这种自我对弈的模式,AMIE 能够在患者交互中不断学习并改善其会话和诊断能力。
2.2.1 模拟对话数据管理
为了大规模地产出高质量的模拟对话,我们开发了一种新的多代理框架,该框架包括三个关键组成部分:
- 情景生成器:AMIE 利用网络搜索,根据特定的医疗状况制作独特的患者情景。
- 模拟对话生成器:三个 LLM 代理分别扮演患者代理、医生代理和主持人角色,开展一个回合接一个回合的对话,模拟真实的诊断互动。
- 自我对弈评论员:第四个 LLM 代理充当评论员,以便给予医生代理反馈以实现自我改进。值得注意的是,AMIE 在这个框架中充当所有代理角色。我们在下面详细描述了每个组成部分。 ### 2.3 指令微调
AMIE 在基础大型语言模型 PaLM 2 的基础上进行了指令微调,以增强其在医疗对话和推理方面的能力。
使用任务专用的指令来微调 AMIE,让它在医疗对话中扮演患者或医生角色,进行医学问答和推理,并总结电子健康记录(EHR)笔记;初始微调使用静态数据集,而后续微调使用自我对话生成的数据。
在对话生成任务中,AMIE 被训练为基于之前的对话预测下一轮交流,担任患者角色时根据患者情景设定作答,担任医生角色时则作为富有同情心的临床医生进行询问,以获得准确诊断。
在 EHR 笔记摘要任务中,AMIE 基于提供的临床笔记生成摘要;在医学推理、问答和长篇回应生成任务中,设置与 singhal2023towards 相同,除了对话生成和长篇回应生成任务,其他任务均结合少量样例和任务指令提供额外背景。
2.4 在线推理的推理链
“推理链”是指一系列连续的模型调用,每个步骤都依赖于之前步骤的输出。具体来说,我们使用了三个步骤的推理过程,描述如下:
- 分析患者信息:在当前对话历史的基础上,AMIE 被指示进行以下操作:1)总结患者的阳性和阴性症状,以及相关的医疗/家庭/社会历史和人口统计信息,2)提出当前的鉴别诊断,3)记录准确诊断所需的缺失信息,以及 4)评估对当前鉴别诊断的信心并突出其紧迫性。
- 制定回应和行动:基于对话历史和第 1 步的输出,AMIE 执行以下操作:1)生成对患者最后一条信息的响应,并制定进一步问题以获取缺失信息并完善鉴别诊断。2)如果必要,建议立即采取行动,例如去急诊室。如果基于可用信息对诊断有信心,则呈现鉴别诊断。
- 优化回应:AMIE 根据对话历史和前几步的输出,修改其先前的输出以满足特定标准。这些标准主要与回应的真实性和格式有关(例如,避免在患者事实上的错误和不必要的重复,表现出同理心,并以清晰的格式展示)。
- 这种推理链策略使 AMIE 能够在当前对话的基础上逐步优化其回应,以提供明智且有依据的回复。