介绍

英文题目:CBLUE: A Chinese Biomedical Language Understanding Evaluation

中文题目:CBLUE:中文生物医学语言理解评价基准

论文地址:https://arxiv.org/pdf/2106.08087.pdf

领域:自然语言处理,知识图谱

发表时间:2021 年

作者:Ningyu Zhang,医渡云、平安医疗科技、阿里夸克、鹏城实验室、北京大学、哈尔滨工业大学 (深圳)、同济大学、郑州大学等共同协办

出处:ACL(自然语言处理顶级会议)

被引量:3

数据:https://tianchi.aliyun.com/dataset/dataDetail?dataId=95414 (需要提交申请)

代码:https://github.com/CBLUEbenchmark/CBLUE

阅读时间:2022.05.09

读后感

训练和评测数据非常全面,还可以在天池打榜。

介绍

之前生物医学方面数据以英文为主,本文收集了真实世界的生物医学数据,提出了第一个中文生物医学语言理解评估标准 CBLUE。其内容覆盖命名实体识别,知识抽取,诊断标准化,句子分类,以及对在线辅助医疗系统的评测。并评测了 11 个预训练的中文模型,对比了模型与人类水平的差异。

相关工作

自然语言评测数据从 GLUE 开始;SuperGLUE 进一步提出更难的任务以及排行榜;另外,还有 DecaNLP 问答评测,以及 SentEval 评测固定大小的句子嵌入。CLUE 是用于评测中文 NLP 的数据集,它包含 9 项任务。文中提出的医学评测 CBLUE 与 CLUE 对比如下

Pasted image 20220509134911.png

在生物医疗领域的数据集有评测问答的 PubMedQA,评测阅读理解的的 BioRead。与一般语料不同的是,生物医学语料库的标注需要专家介入,费时费力,且大多基于英文,泛化到其它语言有难度。

CBLUE 概览

Pasted image 20220509134827.png

任务

CBLUE 共包含 8 个任务

CMeEE

中文医疗命名实体识别,数据起源于 CHIP 2020(中国健康信息处理会议)。通过从句子里提取实体,归类到九个类别:疾病、临床表现、药物、医疗设备、医疗程序、身体、体检、微生物和科室。

CMeIE

中文医疗信息抽取,数据起源于 CHIP 2020。目标是在遵循约束的句子中识别实体和关系。数据包含 53 种关系,其中 10 个同义子关系,43 个其他子关系。

CHIP-CDN

CHIP 临床诊断规范化,将医生书写的诊断匹配到 ICD-10 标准化。

CHIP-CTC

CHIP 临床试验分类,用于评价受试者是否符合临床试验,共定义了 44 个类别。

CHIP-STS

CHIP 文本语义相似度,主要用于中医疾病问答数据,在病种间迁移学习。它的训练集和数据集针对不同疾病,模型用于评价两个句子的相似度。

KUAKE-QIC

KUAKE(阿里夸克)问询意图分类任务,包含 11 种意图:诊断、病因分析、治疗计划、医疗建议、检测结果分析、疾病描述、后果预测、预防措施、预期效果、治疗费用。

KUAKE-QTR

KUAKE 查询标题相关性任务,给出一个查询,目的是找到相关的标题。

KUAKE-QQR

KUAKE 查询相关性,计算两个查询的相关性,类似 QTR 任务,该任务应用于搜索引擎。

数据总结

功能分类

  • 医学信息抽取
  • 医疗术语标准化
  • 医学文本分类
  • 句子语义匹配
  • 对话的理解和生成

数据来源

  • CHIP 中国健康信息处理会议
  • KUAKE 阿里夸克
  • IMCS21 复旦大学
  • MedDG 中山大学&腾讯天衍实验室

数据收集

数据源如下:

  • 数据临床实验:从 ChiCTR(中国临床试验注册中心)获取,供 CHIP-CTC 任务使用。
  • 电子健康记录:获取了几家三甲医院的病历最终诊断,从不同的医疗科室抽取了诊断项,构建 CHIP-CDN 数据集,诊断项目是从常见医学同义词词典未涵盖的项目中随机抽样的。
  • 医学论坛和教材:新冠流行后,在线医疗咨询增多,用线上问题生成 CHIP-STS 数据集时发现,很多是投诉。为了保证语料库的权威性和实用性,还选择了儿科学、临床儿科学和临床实践 6 的医学教材。主要用于构建 CMeIE 和 CMeEE 数据。
  • 从搜索引擎日志中收集:利用夸克搜索引擎,先过滤出医学标签数据,所有的文档分为高、中、尾三类,然后对数据进行统一采样,以保证多样性。供 KUAKE-x 使用。

标注

每个样本由三到五名领域专家进行注释,并采用投票最多的注释来估计人类的表现。去掉了训练阶段低水平的人,以保持严格和较高的标准,随机审查每人至少 10 个样本,作为评价。最终,使用 Kappa 分数计算注释者的一致性,发现六个注释中有五个显示出几乎完美的一致性 (κ=0.9)。

特点

  • 匿名化同时保证效果
  • 采样符合真实世界分布:保持长尾分布,支持标签粗细粒度的层次。
Pasted image 20220509153710.png
  • 多样化的任务设置

排行榜

参与者提交对测试集的预测结果,评价系统给出得分。且阿里云平台提供 60 小时 GPU 训练时间,以训练模型。

维护

CBLUE 1.0 在 2021 年 4 月 1 日发布,开始支持 8 项任务,持续更新中。

目前已更新致 CBLUE 2.0,共建单位新增了“复旦大学”、“腾讯天衍实验室”和“中山大学”,任务种类增加到 15 个。

新增任务如下:

  • CHIP-CDEE:临床发现事件抽取
  • CHIP-MDCFNPC:医疗对话临床发现阴阳性判别
  • IMCS21:智能对话诊疗数据集(含四个子任务)
    • IMCS-NER 命名实体识别
    • IMCS-SR 症状识别
    • IMCS-MRG 医疗报告生成
    • IMCS-IR 意图识别
  • MedDG:蕴含实体的中文医疗对话生成

实验

基准结果

使用多个预训练中文模型评测,对每个任务外加一个层来精调预测训练模型。结果如下:

Pasted image 20220509154539.png

效果分析:大的模型效果更好;使用全词并不是在所有任务中表现都好;小的模型 Albert-TINY 在有些领域中表现也不是太差(CDN、STS、QTR 和 QQR);用医疗数据训练出来的模型 PCL-MedBERT 效果没有预想中那么好。

人的表现

业余人士经过训练后标注效果如下,和机器相比,人标注效果更好。

Pasted image 20220509155039.png

个案分析

错误原因分析如下:

Pasted image 20220509154909.png