news 2026/4/19 2:18:52

全球最大开源多组学生物序列Transformer

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
全球最大开源多组学生物序列Transformer

摘要

Transformer架构彻底革新了生物信息学,推动了生物分子特性的解析与预测。目前绝大多数生物序列Transformer仅基于单组学数据(蛋白或核酸)训练,虽在各自领域取得成功,却难以捕捉跨模态相互作用。本文提出当前最大规模开源多组学模型OmniBioTE,基于2,500亿token混合蛋白-核酸数据预训练。实验证明,仅用无标注序列训练的OmniBioTE,可自动学习基因与对应蛋白的联合表征;在蛋白-核酸结合吉布斯自由能变(ΔG)预测任务上达到最优性能;无需任何结构标注,即可涌现结构信息,精准预测结合关键残基。相较于同等算力的单组学模型,OmniBioTE在多组学、单组学任务中均实现更优的算力效率(每FLOP性能)。本研究验证了生物序列统一建模的价值,确立OmniBioTE为多组学研究的基础模型。

sully.chen@duke.edu

eric.oermann@nyulangone.org

#多组学 #生物序列Transformer #蛋白核酸相互作用 #自监督预训练 #联合表征 #结合自由能预测 #结构信息涌现

数据

美国国家生物技术信息中心

https://ftp.ncbi.nlm.nih.gov/genbank/

UniProt蛋白质

https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz

GitHub

https://github.com/nyuolab/OmniBioTE

HuggingFace

https://huggingface.co/WeiHua/OmniBioTE

Zenodo

https://doi.org/10.5281/zenodo.17945682

结合AlphaFold3与分子动力学(MD)模拟的预测

https://zenodo.org/records/15098577

引言

1多组学预训练与任务专属微调

(A)收集包含蛋白质组、各类核酸(DNA、多种RNA、人工序列等)的大规模数据集;

(B)基于编码器Transformer与掩码语言建模目标,完成序列大规模预训练;

(C)为基础模型添加任务专属头,微调后适配各类下游任务。

相关工作

表1 本文OmniBioTE与对比模型的参数规模

各模型家族、变体及对应参数数量统计

实验结果

涌现式联合表征

2基因-蛋白嵌入的涌现式对齐与潜在结构信息

(a)低秩特征提取器在95%独立测试集上,生成的OmniBioTE特征向量余弦相似度分布(匹配基因-蛋白对/不匹配对);

(b)单组学模型(NucBioTE+ProtBioTE)用相同方法、双特征提取器的对应结果;

(c)结合亲和力微调版vs基础版OmniBioTE,基于冻结注意力图的接触预测F1分数提升;(d)锌指和BTB结构域蛋白7A(ZBTB7A)与双链DNA的结合接触概率预测(红色越深,接触概率越高)。

箱线图以中位数为中心、4分位距(IQR)为箱体,须线为极值;(a)剔除±1.5×IQR外的异常值。***₁: p=2.5×10⁻⁶;***₂: p=8.8×10⁻⁶;**₃: p=6.3×10⁻⁴。p值经单侧Welch t检验+Holm-Bonferroni校正,α=0.01;(a)(b)因样本量极大未做显著性检验。

多组学任务性能

图3 多组学预训练实现蛋白-核酸复合物ΔG回归最优性能

(A)ProNAB数据集10折交叉验证,预训练算力与ΔG预测皮尔逊相关系数(PCC)关系;

(B)10折交叉验证ΔG预测平均绝对误差(MAE);

(C)突变共有序列的ΔΔG预测值随预训练算力的变化(误差线为均值标准误);

(D)不同接触阈值下的监督接触预测性能。8Å/6Å/4Å阈值的正负样本比为0.29/0.16/0.09,随机猜测最大F1为0.37/0.247/0.157。

(*)为各任务最优模型。***₁: p=6.7×10⁻⁵;**₂: p=1.5×10⁻³;***₃: p=4.3×10⁻⁶;**₄: p=1.3×10⁻³。p值经单侧Welch t检验+Holm-Bonferroni校正,α=0.01。

单组学基准测试性能

图4 单组学基准的性能与缩放规律

以预训练FLOPs为横轴、综合性能为纵轴,展示多组学预训练的算力效率优势:

(a,b)基因组理解评估(GUE)、(c,d)蛋白质嵌入评估(TAPE)、(e,f)蛋白质通用生命语言评估(ProteinGLUE)。

GUE表观遗传任务取均值合并;(a)(c)(e)中OmniBioTE按参数从小到大:小/中/大/超大版。(*)为各任务最优模型。

详细总结

思维导图

模型参数规模

参考

PLoS One. 2026 Feb 2;21(2):e0341501. doi: 10.1371/journal.pone.0341501.

Large-scale multi-omic biosequence transformers for modeling protein-nucleic acid interactions

260202OmniBioTE.pdf

注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/19 1:55:57

Go语言的并发编程进阶

Go语言的并发编程进阶 并发编程基础 Go语言的并发编程基于goroutine和channel,这使得并发编程变得简单而高效。本文将介绍Go语言并发编程的进阶概念和技巧,帮助开发者编写更复杂、更高效的并发程序。 高级通道操作 通道的关闭 package mainimport ("…

作者头像 李华
网站建设 2026/4/19 2:02:29

某些人:我想做同传——我要每天抽一两个小时来练习——我很努力——我练个一年半载肯定可以接项目——我这么坚持我甚至比北外巴斯高翻的都厉害——练了一段时间后——妈呀同传到底该怎么练我得去网上各大群里问问

某些人: 我想做同传——我要每天抽一两个小时来练习——我很努力——我练个一年半载肯定可以接项目——我这么坚持我甚至比北外巴斯高翻的都厉害——练了一段时间后——妈呀同传到底该怎么练我得去网上各大群里问问秘笈——又过了两年——实在不行太难了——再过两年——结婚生…

作者头像 李华
网站建设 2026/4/19 2:00:26

终极Tsukimi播放器:简单快速的Linux媒体播放解决方案

终极Tsukimi播放器:简单快速的Linux媒体播放解决方案 【免费下载链接】tsukimi A simple third-party Jellyfin client for Linux 项目地址: https://gitcode.com/gh_mirrors/ts/tsukimi Tsukimi是一款基于GTK4-RS开发的第三方Jellyfin客户端,专为…

作者头像 李华
网站建设 2026/4/18 21:45:14

Chrome画中画扩展终极指南:如何一键实现视频悬浮播放

Chrome画中画扩展终极指南:如何一键实现视频悬浮播放 【免费下载链接】picture-in-picture-chrome-extension 项目地址: https://gitcode.com/gh_mirrors/pi/picture-in-picture-chrome-extension 你是否经常需要一边看视频一边工作?想要在浏览网…

作者头像 李华