news 2026/4/16 19:33:01

知识图谱加速COVID-19科研信息发现

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
知识图谱加速COVID-19科研信息发现

利用知识图谱简化COVID-19研究

知识图谱是一种组织信息的方式,以便更高效地进行探索和分析。像所有图谱一样,它由节点(通常描绘为圆圈)和边(通常描绘为连接节点的线段)组成。在知识图谱中,节点通常代表实体,边则表示实体之间的关系。

2020年5月,某中心网络服务部门公开发布了COVID-19知识图谱(CKG)。该图谱组织了COVID-19开放研究数据集(CORD-19)中的信息。CORD-19是一个由某机构人工智能研究所领导的联盟创建的、不断增长的关于COVID-19及相关主题的学术出版物存储库。CKG为某中心的CORD-19排名和推荐系统提供了支持。

在早些时候于AACL-IJCNLP“将结构化知识与神经网络整合用于自然语言处理”研讨会上发表的一篇论文中,我们解释了如何创建CKG,并描述了几种可能的应用,包括针对特定主题的论文排名和相关论文的发现。

图谱结构如何?

该图谱包含五种类型的节点:

  • 论文节点:包含论文的元数据,如标题和ID号。
  • 作者节点:包含作者的姓名。
  • 机构节点:包含机构的名称和位置。
  • 概念节点:包含论文中出现的特定医学术语,例如布洛芬、心功能不全和哮喘。
  • 主题节点:包含广泛的研究领域,例如基因组学、流行病学和病毒学。

该图谱还包含五种类型的边:

  • authored_by:将论文与其作者链接起来。
  • affiliated_with:将作者与其所属机构链接起来。
  • associated_concept:将论文与其相关概念链接起来。
  • associated_topic:将论文与其主题链接起来。
  • cites:将论文链接到引用它的其他论文。

图谱是如何创建的?

CORD-19数据库中论文的标准化格式允许轻松提取标题、摘要、正文、作者、机构和引用。

为了识别概念,使用了某中心Comprehend Medical服务,该服务从文本中提取医学实体并将其分类为实体类型。例如,给定句子“腹部超声提示急性阑尾炎”,该服务会提取以下实体:腹部(解剖结构)超声(检查治疗程序)急性阑尾炎(医疗状况)

为了提取主题,使用了一种名为Z-LDA的潜在狄利克雷分配的扩展方法,该方法使用每篇论文的标题、摘要和正文文本进行训练。Z-LDA假设论文中最具特征的术语反映了某个主题,并根据该术语在整个语料库中的出现频率选择其中一个作为该主题的标签。通过这种方式生成的主题列表在医疗专业人员的帮助下最终缩减为10个主题。

应用示例:基于引用的排名

在学术界,衡量论文相关性的一个标准是引用它的出版物数量。图结构使引用计数变得容易。但它也支持自定义计数,例如处理特定主题或包含特定概念的出版物进行的引用。

相似论文引擎

给定一篇论文,相似论文引擎会检索一个包含k篇相似论文的列表。它使用两种不同的相似性度量,在最后一步进行组合。

一种度量使用SciBert嵌入,它建立在流行的BERT语言模型之上,但针对科学文本进行了微调。SciBert将输入句子表示为多维空间中的点,使得涉及相同科学概念的句子倾向于聚集在一起。

我们为论文的标题、摘要和正文创建独立的嵌入,然后将它们平均以生成最终的嵌入。先前的研究表明,标题嵌入可能比正文嵌入更容易区分,而正文嵌入则携带更丰富的信息。因此,选择了一种赋予两者相等权重的嵌入方案。平均嵌入在表示空间中的接近程度表明了相关论文的相似性。

第二个模型使用另一种嵌入方式,即知识图谱嵌入,它试图保留知识图谱中编码的关系。如果图中的两个实体通过一条代表关系的边连接,那么第一个实体的嵌入,加上代表该关系的向量后,应该在第二个实体位置的附近(理想情况下是精确位置)产生一个点。

为了创建知识图谱嵌入网络,使用了DGL-KE工具,该工具在某中心开发,并扩展了早期的深度图库(DGL)。

作为训练数据,从CKG中提取向量三元组(h, r, t)的集合,其中h是头实体,r是关系类型,t是尾实体。这些三元组是正面的训练样本。负面样本是通过随机替换现有三元组的头或尾实体来合成的。

使用这些样本,训练模型以区分错误链接和真实链接。结果是为图中的每个节点生成一个嵌入。

在此过程结束时,将语义嵌入和知识图谱嵌入连接起来,创造一个新的、更高维度的表示空间。通过计算该空间中前k个最接近的向量(余弦距离),即可获得前k篇最相似的论文。

鉴于缺乏论文推荐的基准事实,通过分析性的定量和定性指标来评估该算法。这些指标包括但不限于流行度分析、源论文与推荐论文之间的主题交集、低维聚类和摘要比较。关于方法的更多信息,可以参阅某中心博客上的两篇文章:“使用某中心 Neptune、某中心 Comprehend Medical 和 Tom Sawyer Graph Database Browser 探索COVID-19科学研究”以及“构建和查询某中心 COVID-19知识图谱”。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/15 16:54:57

德勤2026技术趋势报告:五大力量正驱动技术和商业进化

AI正在长出手脚走进物理世界,也在重构企业的算力账单与组织基因。 全球四大审计公司之一的德勤发布了一份《2026技术趋势》报告,它揭示了技术如何从单纯的实验走向产生实质性的商业影响力。 在这个创新呈指数级复利的时代,电话用了50年才积累…

作者头像 李华
网站建设 2026/4/15 17:22:48

LIBRETV快速原型:1小时内验证你的电视应用创意

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 快速开发一个LIBRETV电视应用原型,验证智能儿童教育电视的创意。原型应包括基础视频播放、家长控制界面和简单的内容分类功能。使用快马平台快速生成代码,重…

作者头像 李华
网站建设 2026/4/9 20:17:52

AI如何优化FREEMARKER模板开发流程

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 创建一个基于FREEMARKER的Web应用模板生成器。要求&#xff1a;1. 用户输入数据模型JSON结构 2. AI自动生成对应的FREEMARKER模板文件 3. 包含常用模板指令如<#list>, <#…

作者头像 李华
网站建设 2026/3/30 14:59:03

WebGIS开发实战|智慧城市济南地图可视化开发系统

框架与内容 开发语言&#xff1a;HTML、CSS、JavaScript 前端框架&#xff1a;VUE.js、Vite 地图框架及可视化&#xff1a;Mapbox、AntV L7 基本地图功能&#xff1a;地球自转等功能 基本服务&#xff1a;实现了飞行至济南&#xff0c;两点间导航&#xff0c;足迹等功能 …

作者头像 李华
网站建设 2026/4/15 7:45:29

AI如何优化录屏体验?SUNWOO录屏大师的智能功能解析

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 开发一个基于AI的录屏增强工具&#xff0c;主要功能包括&#xff1a;1) 实时语音转文字&#xff0c;自动生成视频字幕&#xff1b;2) 智能降噪功能&#xff0c;自动过滤背景杂音&a…

作者头像 李华
网站建设 2026/4/14 23:44:23

传统vsAI:解决0X80070035错误的效率对比

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容&#xff1a; 设计一个对比实验工具&#xff0c;分别用传统方法和AI方法解决0X80070035错误。功能包括&#xff1a;1. 模拟错误环境&#xff1b;2. 记录两种方法的解决时间&#xff1b;3. 生成对…

作者头像 李华