news 2026/6/26 21:34:41

全球首个同时融合3类信息的生物医药标准化图谱格式

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
全球首个同时融合3类信息的生物医药标准化图谱格式

动机

多组学数据分析是精准医学科研发现的关键,但将组学分析结果转化为全新科研假说仍存在显著难题:领域专家需人工梳理海量关联生物医药先验知识以生成假说,该方式主观性强、难以规模化落地。大语言模型(LLM)可加速科研发现,但其推理性能依赖结构化、可溯源且完备的生物医药先验知识;而现有生物知识零散分布于海量异构数据库,各库命名体系不统一,难以整合为标准化资源支撑AI规模化解析,制约人工智能依托生物数据开展科学发现。

Fuhai.Li@wustl.edu

#生物医药 #知识图谱 #多组学 #实体匹配 #阿尔茨海默 #大模型 #可视化GUI

引言

图1 BioMedGraphica与现有主流生物医药知识图谱数据库对比

对比维度:生物实体完备性、实体文本注释/先验知识、多组学数据与文本知识映射能力

方法

BioMedGraphica数据源总述

图1 BioMedGraphica整体架构总览图

上图:多数据库实体数据整合流程;

下图:关联关系标准化与知识图谱构建流程;

中图:平台完整处理管线:基于用户输入完成实体识别、关系构建,输出适配AI建模的标准化图谱文件。

实体数据库收集与说明

表2 实体数据源信息汇总

收录数据库全称、对应实体类型、原始数据条目总量

关系数据库收集与说明

表3 关系数据源基础信息汇总

收录数据库全称、关联2端实体、边类型、原始关联条目数量;末列代表各数据库原始数据集总记录数

图2 BioMedGraphica整合实体与关联关系概览图

(A) 数据源与实体分布:左侧标注OMIM、HGNC、Ensembl等数据源,定义启动子、基因、转录本等11类实体;右侧柱状图为原始全量图谱(BMG)与去孤立节点连通图谱(BMGC)的实体数量对数刻度柱状图。

(B) 实体关联和弦图:不同色块代表各类实体,外圈刻度量化各类实体跨类型关联总边数,内部弦线表征实体间关联方向与规模,并标注各类关系编号(如R1:启动子-基因、R2:基因-转录本)与关键关联的边总量。

关联关系整合方案

表4 标准化后各类关联关系数据汇总

字段:关联类型、数据源、原始边数、匹配后唯一边数、整合最终总边数

结果

本研究开发一体化平台BioMedGraphica,整合43个数据库资源,涵盖11类实体、30种关联关系,构建统一文本先验知识图谱,包含2,306,921个实体与27,232,091条关联边。本文提出「文本-数值图(TNG)」 全新数据结构:文本信息承载转录起始位点、生物学功能、作用机制等先验知识,数值表征各类生物定量特征,依托图谱关联实现生物学机制挖掘。TNG打通先验知识库与用户自有实验数据,是构建新型图分析模型的优质标准化数据结构。

一体化生物医药文本先验知识图谱

表5 全量图谱与连通图谱各类实体数量统计

BMG = 原始全量BioMedGraphica图谱,BMGC = 剔除孤立节点的连通子图谱;表格统计各实体数量、占比、连通图谱实体在全量图谱中的占比。

表6 各类关联关系统计汇总

统计全量图谱/连通图谱各类关系的边数量与占比;启动子-基因为虚拟生成关系,数据分别标注2套图谱数值。

实体识别算法

图3 BioMedGraphica软件实体匹配与整体处理管线

(A) 双匹配策略原理:标准化ID实体采用精准硬匹配,疾病/药物/表型/暴露采用预训练大模型语义软匹配;

(B) 实体名称与用户特征名称嵌入空间示意图;

(C) 基于余弦相似度筛选候选匹配、人工确认生成映射字典;

(D) 多平台实体匹配性能对比柱状图;

(E) 平台全流程:用户文件导入→实体识别→匹配映射→关系筛选与节点自动补全→输出带文本注释的AI就绪图谱。

数据获取与平台实操演示

实例分析:基于BioMedGraphica构建文本-数值图

图4 BioMedGraphica网页端GUI界面及埃默里血管队列数据集实操

(A) 平台文件上传界面,支持上传4类输入文件用于TNG构建;

(B) 知识图谱可视化预览:高亮所选实体与关联,自动标注缺失实体类型并支持虚拟节点补充;

(C) 软匹配候选结果页面:展示候选BMG编号,需人工确认映射关系;

(D) 任务输出压缩包目录结构,内含图谱特征矩阵、实体-ID映射文件;详细操作教程参考项目README文档链接。

数据

附带使用教程、案例代码,项目源代码GitHub

https://github.com/FuhaiLiAiLab/BioMedGraphica

HuggingFace数据集仓库公开下载知识库数据集

https://huggingface.co/datasets/FuhaiLiAiLab/BioMedGraphica

官方网页在线试用

https://app.biomedgraphica.org

详细总结

思维导图

参考

Bioinformatics. 2026 Jun 5:btag355. doi: 10.1093/bioinformatics/btag355.

BioMedGraphica: An All-in-One Platform for Joint Textual Biomedical Prior Knowledge and Numeric Graph Generation

260605BioMedGraphica.pdf

注:AI辅助创作,如有不当欢迎指出。内容仅供参考,不构成任何建议。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/15 8:41:42

MAX232与MAX3232芯片对比:低功耗串口通信电平转换设计指南

1. 项目概述:从MAX232到MAX3232,一次经典的芯片迭代 在嵌入式开发、工业控制或者任何需要串口通信的场合,RS-232电平转换芯片是连接微控制器(MCU)与PC、工控机等标准串口设备的桥梁。MAXIM(现ADI&#xff0…

作者头像 李华
网站建设 2026/6/15 11:57:09

笔记本电脑锂电池保养指南:从化学原理到日常使用误区解析

1. 笔记本电脑锂电池的真相:从化学原理到日常保养用了这么多年笔记本,我敢说,至少有一半的用户对那块藏在机身里的锂电池,既熟悉又陌生。熟悉的是,每天都要插上电源,看着电量百分比跳动;陌生的是…

作者头像 李华
网站建设 2026/6/18 17:49:10

UVa 419 Matching Meetings

题目描述 题目要求为 nnn 次会议安排时间。给定当前日期、每次会议的持续时间 ttt(以 151515 分钟为单位),以及最多 100100100 个人的日程安排。每个人有若干预约,每个预约包含日期、开始时间和结束时间(时间范围为 09…

作者头像 李华
网站建设 2026/6/20 3:23:08

智能手机屏战争:In-Cell、AMOLED与供应链格局深度解析

1. 从“核战争”到“屏战争”:一场供应链视角的深度观察最近和几个做手机方案和元器件分销的老朋友喝茶,聊起明年的市场风向,大家不约而同地提到了一个词:“屏”。这让我想起前两年,行业里言必称“八核”、“十核”&am…

作者头像 李华
网站建设 2026/6/15 12:25:59

电信垄断背后的技术经济学:工程师视角下的创新空间与产业逻辑

1. 一场跨界交锋引发的行业思考前阵子,音乐人高晓松和通信博士奥卡姆剃刀在微博上关于“电信垄断”的几轮隔空辩论,在咱们工程师圈子里也引起了不少讨论。一个是从文化视角出发,带着对“自由市场”的浪漫想象;另一个则是典型的工科…

作者头像 李华