摘要
医学知识图谱(KG)在药物推荐和临床决策支持系统等各种医疗保健场景中显示出巨大潜力。决定医学KG在实际应用中作用的因素是它所能提供的医学知识的规模、覆盖范围和质量。大多数现有的医学KG是从单一或少数几个信息源提取的。然而,从信息源不足的地方提取的医学知识通常高度不完整甚至带有偏见,这导致数据缺乏完整性,并可能减弱它们在现实世界场景中的有效性。此外,在大多数以往的工作中,对实体和关系类型的覆盖不足,这也可能限制它们在未来应用中的潜在使用。
阅读原文或https://t.zsxq.com/xcMZ1获取原文pdf
本文构建了一个统一的系统,可以从异构信息源中提取和管理医学知识。我们首先采用命名实体识别和关系抽取方法从医学文本中提取知识三元组。然后我们提出一个分层实体对齐框架以进一步精炼知识。基于我们的系统,我们构建了一个大规模、高质量、多源、多语言的医疗知识图谱(简称LMKG)
其中包括13种实体类型和17种关系类型,并包含403,784个实体实例和1,225,097个关系实例。我们进行了广泛的实验来评估LMKG的质量。实验结果显示,LMKG可以有效提升上游和下游智能医学应用的性能。我们已经公开发布了知识图谱资源及相应的管理服务接口,以促进医学领域的研究和应用。
核心速览
研究背景
研究问题:这篇文章要解决的问题是如何构建一个大规模、多源、多语言的医疗知识图谱(Medical Knowledge Graph, KG),以支持智能医学应用。现有的医疗知识图谱大多来自单一或少数信息源,导致知识不完整且可能存在偏差,限制了其在实际场景中的应用效果。
研究难点:该问题的研究难点包括:如何从异构信息源中提取和管理医疗知识,如何确保知识的完整性、准确性和多样性,以及如何有效地整合和优化来自不同来源的知识。
相关工作:该问题的研究相关工作包括:从单一信息源提取医疗知识三元组并构建知识图谱,从多个信息源构建医疗知识图谱,以及将医疗知识嵌入向量表示以便于下游任务的应用。然而,现有工作大多缺乏知识源信息的标注,知识类型和数量有限,难以满足复杂医疗任务的需求。
研究方法
这篇论文提出了一个统一的系统,用于从异构医疗文本中提取和管理医疗知识,并构建了名为LMKG的大规模、高质量、多源、多语言的医疗知识图谱。具体来说,
数据收集和预处理:首先,从多个信息源(如医疗维基、医学期刊和国家官方医学网站)收集数据,并将其处理成统一的文本结构。
实体识别:使用预训练的名称实体识别(NER)模型从医疗文本中提取实体。具体模型是基于BERT的双向LSTM-CRF模型,
关系提取:使用预训练的关系提取(RE)模型识别实体之间的关系。具体模型是基于注意力机制的模型
分层实体对齐:提出了一个分层实体对齐框架,包括基于相似性的粗粒度对齐和使用ChatGPT进行细粒度优化的步骤。粗粒度对齐通过计算属性相似度和实体相似度来合并相似实体,细粒度对齐则利用ChatGPT进行双语实体对齐。
实验设计
数据集:使用了CCKS-18和Dia-KG两个医学NER数据集进行模型训练,CmeIE数据集进行关系提取模型训练。
模型训练:使用BERT-BiLSTM-CRF模型进行实体识别,基于注意力机制的模型进行关系提取。
实体对齐:通过计算属性相似度和实体相似度进行粗粒度对齐,然后使用ChatGPT进行细粒度对齐。
知识图谱嵌入:使用TransE、DistMult、ComplEx和HolE四种知识表示方法生成知识图谱嵌入,并使用t-SNE方法进行降维可视化。
结果与分析
实体和关系分布:LMKG包含了403,784个实体实例和1,225,097个关系实例,分为13种实体类型和17种关系类型,信息来源多样。
知识图谱嵌入可视化:四种知识表示方法的嵌入可视化结果显示了实体的聚类效果,验证了知识表示的有效性。
NER任务性能提升:在CCKS-19和Dia-KG数据集上,LMKG显著提升了NER任务的性能。例如,在CCKS-19数据集上,LMKG结合BERT模型的NER任务F1值达到了0.92,相比未使用知识图谱的模型提升了0.08。
RE任务性能提升:在Dia-KG数据集上,LMKG显著提升了RE任务的性能。例如,使用BERT模型的RE任务精确率达到了0.85,相比未使用知识图谱的模型提升了0.05。
手动评估:随机抽取1000个三元组进行手动评估,结果显示94%的三元组是医学上准确的,验证了LMKG的高质量。
总体结论
这篇论文构建了一个高质量、大规模、多源、多语言的医疗知识图谱(LMKG),包含了13种实体类型和17种关系类型,包含403,784个实体实例和1,225,097个关系实例。通过广泛的实验验证,LMKG在指导下游医学任务中的表现显著优于现有的医疗知识图谱。论文还发布了LMKG及其对应的图嵌入资源,以促进医学研究和应用。
论文评价
优点与创新
大规模多源医学知识图谱:构建了包含403,784个实体和1,225,097个关系实例的大规模、多源、高质量的医学知识图谱(LMKG),实体类型和关系类型分别达到13种和17种。
系统化的知识提取和管理:提出了一个统一的系统,能够从异构医学文本中提取和管理医学知识,包括命名实体识别(NER)和关系抽取(RE)。
分层实体对齐框架:提出了分层实体对齐方法,用于进一步细化从不同来源提取的知识三元组。
保留知识源信息:在知识图谱中保留了知识源信息,以保持不同信息源的可变性。
生成图嵌入:生成了知识图谱的图嵌入,以便于在下游任务中的应用。
广泛的实验评估:进行了广泛的实验来评估LMKG的质量,结果表明LMKG在提升下游任务性能方面一致优于其他公共医学知识图谱。
公开资源:将LMKG及其相应的管理服务接口公开发布,以促进医学研究和应用。
不足与反思
领域局限:目前LMKG主要关注临床知识的整合,对药物学和生物化学领域的关注有限。
关系类型局限:目前的关系主要基于临床经验的实证证据,缺乏逻辑推理和合理推断,如药物相互作用或基因致病性。
未来工作:计划在未来工作中增强LMKG,补充药物学和生物化学方面的知识。
关键问题及回答
问题1:LMKG在构建过程中使用了哪些具体的数据源?这些数据源如何为LMKG提供多样化的医疗知识?
LMKG在构建过程中使用了多种数据源,包括四个医疗维基平台(A-plus Hospital Wiki、China Medical Information Platform、Xunyiwenyao Medical Wiki和Shiliaotong Food Wiki)、两个医学期刊数据库(Chinese Medical Journal Network和Journal of Medical Hepatology Database)、以及几个官方数据库(如National Medical Product Administration Data Search、The State Administration for Market Regulation和Snomed CT)。这些数据源提供了多样化的医疗知识,涵盖了疾病、症状、药物、手术、实验室检查、放射检查、身体结构等多个方面。通过整合这些不同来源的数据,LMKG能够构建一个规模更大、知识类型更丰富的医疗知识图谱。
问题2:LMKG的分层实体对齐框架是如何工作的?它在提高知识图谱质量方面起到了什么作用?
LMKG的分层实体对齐框架包括两个主要步骤:基于相似度的粗粒度对齐和使用ChatGPT进行细粒度调整。粗粒度对齐主要通过计算实体在属性和实体视图上的相似度来合并相似实体,消除冗余。具体来说,属性相似度使用Jaccard相似系数计算,而实体相似度则是基于属性相似度的加权和计算的。细粒度对齐则利用ChatGPT进行进一步的调整和优化,通过对话形式揭示预训练模型中保留的知识,实现双语实体对齐。这种方法不仅减少了询问的问题数量,还提高了响应的一致性,从而显著提高了知识图谱的质量和准确性。
问题3:LMKG在医学NER和RE任务中的表现如何?与其他医疗知识图谱相比有哪些优势?
LMKG在医学NER和RE任务中表现出色。在医学NER任务中,LMKG在CCKS-19数据集上的准确率达到92%,在Dia-KG数据集上的准确率达到88%。在医学RE任务中,LMKG在Dia-KG数据集上的F1值达到0.85。与其他医疗知识图谱相比,LMKG在知识规模、实体类型和关系类型数量上均优于现有图谱。此外,LMKG还提供了详细的知识源信息,保留了不同信息源的多样性,这有助于提高知识图谱的可靠性和准确性。实验结果表明,LMKG能够显著提升下游任务的性能,显示出其在实际医学研究和应用中的潜力。