全球最大开源多组学生物序列Transformer-洪萨配资

摘要

Transformer架构彻底革新了生物信息学，推动了生物分子特性的解析与预测。目前绝大多数生物序列Transformer仅基于单组学数据（蛋白或核酸）训练，虽在各自领域取得成功，却难以捕捉跨模态相互作用。本文提出当前最大规模开源多组学模型OmniBioTE，基于2,500亿token混合蛋白-核酸数据预训练。实验证明，仅用无标注序列训练的OmniBioTE，可自动学习基因与对应蛋白的联合表征；在蛋白-核酸结合吉布斯自由能变（ΔG）预测任务上达到最优性能；无需任何结构标注，即可涌现结构信息，精准预测结合关键残基。相较于同等算力的单组学模型，OmniBioTE在多组学、单组学任务中均实现更优的算力效率（每FLOP性能）。本研究验证了生物序列统一建模的价值，确立OmniBioTE为多组学研究的基础模型。

sully.chen@duke.edu

eric.oermann@nyulangone.org

#多组学 #生物序列Transformer #蛋白核酸相互作用 #自监督预训练 #联合表征 #结合自由能预测 #结构信息涌现

数据

美国国家生物技术信息中心

https://ftp.ncbi.nlm.nih.gov/genbank/

UniProt蛋白质

https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz

GitHub

https://github.com/nyuolab/OmniBioTE

HuggingFace

https://huggingface.co/WeiHua/OmniBioTE

Zenodo

https://doi.org/10.5281/zenodo.17945682

结合AlphaFold3与分子动力学（MD）模拟的预测

https://zenodo.org/records/15098577

引言

图1多组学预训练与任务专属微调

（A）收集包含蛋白质组、各类核酸（DNA、多种RNA、人工序列等）的大规模数据集；

（B）基于编码器Transformer与掩码语言建模目标，完成序列大规模预训练；

（C）为基础模型添加任务专属头，微调后适配各类下游任务。

实验结果

涌现式联合表征

图2基因-蛋白嵌入的涌现式对齐与潜在结构信息

（a）低秩特征提取器在95%独立测试集上，生成的OmniBioTE特征向量余弦相似度分布（匹配基因-蛋白对/不匹配对）；

（b）单组学模型（NucBioTE+ProtBioTE）用相同方法、双特征提取器的对应结果；

（c）结合亲和力微调版vs基础版OmniBioTE，基于冻结注意力图的接触预测F1分数提升；（d）锌指和BTB结构域蛋白7A（ZBTB7A）与双链DNA的结合接触概率预测（红色越深，接触概率越高）。

箱线图以中位数为中心、4分位距（IQR）为箱体，须线为极值；（a）剔除±1.5×IQR外的异常值。***₁: p=2.5×10⁻⁶；***₂: p=8.8×10⁻⁶；**₃: p=6.3×10⁻⁴。p值经单侧Welch t检验+Holm-Bonferroni校正，α=0.01；（a）（b）因样本量极大未做显著性检验。

多组学任务性能

图3 多组学预训练实现蛋白-核酸复合物ΔG回归最优性能

（A）ProNAB数据集10折交叉验证，预训练算力与ΔG预测皮尔逊相关系数（PCC）关系；

（B）10折交叉验证ΔG预测平均绝对误差（MAE）；

（C）突变共有序列的ΔΔG预测值随预训练算力的变化（误差线为均值标准误）；

（D）不同接触阈值下的监督接触预测性能。8Å/6Å/4Å阈值的正负样本比为0.29/0.16/0.09，随机猜测最大F1为0.37/0.247/0.157。

（*）为各任务最优模型。***₁: p=6.7×10⁻⁵；**₂: p=1.5×10⁻³；***₃: p=4.3×10⁻⁶；**₄: p=1.3×10⁻³。p值经单侧Welch t检验+Holm-Bonferroni校正，α=0.01。

单组学基准测试性能

图4 单组学基准的性能与缩放规律

以预训练FLOPs为横轴、综合性能为纵轴，展示多组学预训练的算力效率优势：

（a,b）基因组理解评估（GUE）、（c,d）蛋白质嵌入评估（TAPE）、（e,f）蛋白质通用生命语言评估（ProteinGLUE）。

GUE表观遗传任务取均值合并；（a）（c）（e）中OmniBioTE按参数从小到大：小/中/大/超大版。（*）为各任务最优模型。

详细总结

思维导图

模型参数规模

参考

PLoS One. 2026 Feb 2;21(2):e0341501. doi: 10.1371/journal.pone.0341501.

Large-scale multi-omic biosequence transformers for modeling protein-nucleic acid interactions

260202OmniBioTE.pdf

注：AI辅助创作，如有错误欢迎指出。内容仅供参考，不构成任何建议。

Go语言的并发编程进阶

Go语言的并发编程进阶并发编程基础 Go语言的并发编程基于goroutine和channel，这使得并发编程变得简单而高效。本文将介绍Go语言并发编程的进阶概念和技巧，帮助开发者编写更复杂、更高效的并发程序。高级通道操作通道的关闭 package mainimport ("…

李华

终极指南：如何用MatLog快速定位Android应用问题，让调试变得简单高效

终极指南：如何用MatLog快速定位Android应用问题，让调试变得简单高效【免费下载链接】matlog Material Logcat reader based on CatLog 项目地址: https://gitcode.com/gh_mirrors/ma/matlog 还在为Android应用崩溃而烦恼吗？想要快速找…

李华

某些人:我想做同传——我要每天抽一两个小时来练习——我很努力——我练个一年半载肯定可以接项目——我这么坚持我甚至比北外巴斯高翻的都厉害——练了一段时间后——妈呀同传到底该怎么练我得去网上各大群里问问

某些人: 我想做同传——我要每天抽一两个小时来练习——我很努力——我练个一年半载肯定可以接项目——我这么坚持我甚至比北外巴斯高翻的都厉害——练了一段时间后——妈呀同传到底该怎么练我得去网上各大群里问问秘笈——又过了两年——实在不行太难了——再过两年——结婚生…

李华

别再让模型路径打架了！手把手教你用Simulink Project管理MBD项目（附目录结构最佳实践）

别再让模型路径打架了！手把手教你用Simulink Project管理MBD项目（附目录结构最佳实践） 在基于模型设计（MBD）的开发流程中，最令人头疼的莫过于打开模型时弹出的"无法解析引用"错误。想象一下这样…

李华

终极Tsukimi播放器：简单快速的Linux媒体播放解决方案

终极Tsukimi播放器：简单快速的Linux媒体播放解决方案【免费下载链接】tsukimi A simple third-party Jellyfin client for Linux 项目地址: https://gitcode.com/gh_mirrors/ts/tsukimi Tsukimi是一款基于GTK4-RS开发的第三方Jellyfin客户端，专为…

李华

Chrome画中画扩展终极指南：如何一键实现视频悬浮播放

Chrome画中画扩展终极指南：如何一键实现视频悬浮播放【免费下载链接】picture-in-picture-chrome-extension 项目地址: https://gitcode.com/gh_mirrors/pi/picture-in-picture-chrome-extension 你是否经常需要一边看视频一边工作？想要在浏览网…

李华