摘要
Transformer架构彻底革新了生物信息学,推动了生物分子特性的解析与预测。目前绝大多数生物序列Transformer仅基于单组学数据(蛋白或核酸)训练,虽在各自领域取得成功,却难以捕捉跨模态相互作用。本文提出当前最大规模开源多组学模型OmniBioTE,基于2,500亿token混合蛋白-核酸数据预训练。实验证明,仅用无标注序列训练的OmniBioTE,可自动学习基因与对应蛋白的联合表征;在蛋白-核酸结合吉布斯自由能变(ΔG)预测任务上达到最优性能;无需任何结构标注,即可涌现结构信息,精准预测结合关键残基。相较于同等算力的单组学模型,OmniBioTE在多组学、单组学任务中均实现更优的算力效率(每FLOP性能)。本研究验证了生物序列统一建模的价值,确立OmniBioTE为多组学研究的基础模型。
sully.chen@duke.edu
eric.oermann@nyulangone.org
#多组学 #生物序列Transformer #蛋白核酸相互作用 #自监督预训练 #联合表征 #结合自由能预测 #结构信息涌现
数据
美国国家生物技术信息中心
https://ftp.ncbi.nlm.nih.gov/genbank/
UniProt蛋白质
https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/uniref100.fasta.gz
GitHub
https://github.com/nyuolab/OmniBioTE
HuggingFace
https://huggingface.co/WeiHua/OmniBioTE
Zenodo
https://doi.org/10.5281/zenodo.17945682
结合AlphaFold3与分子动力学(MD)模拟的预测
https://zenodo.org/records/15098577
引言
图1多组学预训练与任务专属微调
(A)收集包含蛋白质组、各类核酸(DNA、多种RNA、人工序列等)的大规模数据集;
(B)基于编码器Transformer与掩码语言建模目标,完成序列大规模预训练;
(C)为基础模型添加任务专属头,微调后适配各类下游任务。
相关工作
表1 本文OmniBioTE与对比模型的参数规模
各模型家族、变体及对应参数数量统计
实验结果
涌现式联合表征
图2基因-蛋白嵌入的涌现式对齐与潜在结构信息
(a)低秩特征提取器在95%独立测试集上,生成的OmniBioTE特征向量余弦相似度分布(匹配基因-蛋白对/不匹配对);
(b)单组学模型(NucBioTE+ProtBioTE)用相同方法、双特征提取器的对应结果;
(c)结合亲和力微调版vs基础版OmniBioTE,基于冻结注意力图的接触预测F1分数提升;(d)锌指和BTB结构域蛋白7A(ZBTB7A)与双链DNA的结合接触概率预测(红色越深,接触概率越高)。
箱线图以中位数为中心、4分位距(IQR)为箱体,须线为极值;(a)剔除±1.5×IQR外的异常值。***₁: p=2.5×10⁻⁶;***₂: p=8.8×10⁻⁶;**₃: p=6.3×10⁻⁴。p值经单侧Welch t检验+Holm-Bonferroni校正,α=0.01;(a)(b)因样本量极大未做显著性检验。
多组学任务性能
图3 多组学预训练实现蛋白-核酸复合物ΔG回归最优性能
(A)ProNAB数据集10折交叉验证,预训练算力与ΔG预测皮尔逊相关系数(PCC)关系;
(B)10折交叉验证ΔG预测平均绝对误差(MAE);
(C)突变共有序列的ΔΔG预测值随预训练算力的变化(误差线为均值标准误);
(D)不同接触阈值下的监督接触预测性能。8Å/6Å/4Å阈值的正负样本比为0.29/0.16/0.09,随机猜测最大F1为0.37/0.247/0.157。
(*)为各任务最优模型。***₁: p=6.7×10⁻⁵;**₂: p=1.5×10⁻³;***₃: p=4.3×10⁻⁶;**₄: p=1.3×10⁻³。p值经单侧Welch t检验+Holm-Bonferroni校正,α=0.01。
单组学基准测试性能
图4 单组学基准的性能与缩放规律
以预训练FLOPs为横轴、综合性能为纵轴,展示多组学预训练的算力效率优势:
(a,b)基因组理解评估(GUE)、(c,d)蛋白质嵌入评估(TAPE)、(e,f)蛋白质通用生命语言评估(ProteinGLUE)。
GUE表观遗传任务取均值合并;(a)(c)(e)中OmniBioTE按参数从小到大:小/中/大/超大版。(*)为各任务最优模型。
详细总结
思维导图
模型参数规模
参考
PLoS One. 2026 Feb 2;21(2):e0341501. doi: 10.1371/journal.pone.0341501.
Large-scale multi-omic biosequence transformers for modeling protein-nucleic acid interactions
260202OmniBioTE.pdf
注:AI辅助创作,如有错误欢迎指出。内容仅供参考,不构成任何建议。