news 2026/4/13 9:52:51

【文献分享】Novae:一种基于图结构的空间转录组学数据基础模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】Novae:一种基于图结构的空间转录组学数据基础模型

文章目录

    • 介绍
    • 代码
    • 参考

介绍

空间转录组学通过提供有关组织内基因表达的高分辨率信息,推动了分子生物学的发展。这种情境对于识别空间区域至关重要,有助于理解微环境的组织结构及其对组织功能和疾病进展的影响。为了改善当前在多张切片上的模型局限性,我们设计了 Novae,这是一个基于图的基础模型,能够提取细胞在其空间情境中的表示。我们的模型基于近 3000 万个细胞的数据集(涵盖 18 种组织),能够在多个基因面板、组织和技术之间进行零样本域推断。与其他模型不同,它还能够原生地纠正批次效应,并构建空间区域的嵌套层次结构。此外,Novae 支持各种下游任务,包括空间变量基因或通路分析以及空间区域轨迹分析。总体而言,Novae 提供了一种强大的、多功能的工具,用于推进空间转录组学及其在生物医学研究中的应用。

空间转录组学1、2 数据为细胞在其微环境中的相互作用以及组织结构的复杂性提供了宝贵的见解。与当前的单细胞 RNA 测序(scRNA-seq)3 相比,空间转录组学的一个关键优势在于它能够保持细胞的空间位置信息,从而能够更深入地理解细胞在其自然环境中的相互作用方式。空间转录组学的技术大致可分为两类:(1)基于下一代测序(NGS)的方法,可提供全转录组测序;(2)基于成像的技术,如 Xenium5、MERSCOPE6 或 CosMX7,这些技术能提供亚细胞分辨率。前者能够进行全面的基因分析,但缺乏精细的空间细节;而后者则提供了详细的空间分辨率,但基因面板的规模有限。随着成像技术的不断发展,它们的基因面板能力也在不断扩大,能够在研究中纳入更大的面板或替换低质量的基因;然而,这种灵活性往往会导致实验在不同的机器上进行或使用不同的面板,从而带来了新的挑战。在更普遍的情况下,当对多个空间转录组学切片(无论是基于下一代测序技术还是基于成像技术)进行分析时,通常会观察到明显的批次效应,因此在不仔细考虑批次效应的情况下,很难在多个切片之间识别出共有的空间模式。
空间转录组学的一个关键重点在于识别和分类空间微环境,这些微环境通常被称为空间区域或生态位。为此目的,已经开发出了多种方法,如 STAGATE8、GraphST9、SpaceFlow10 和 SEDR11。尽管这些方法显示出良好的效果(尤其是在具有斑点分辨率的 NGS 技术如 Visium 的情况下),但它们受到以下限制:(1)依赖于预先定义的基因面板;(2)对批次效应的敏感性;以及(3)对外部工具(如 Harmony12 用于批次效应校正,Leiden13 或 Mclust14 用于聚类)的依赖。这些依赖关系可能会减慢处理速度并降低稳健性,因为需要为每次新的分析或调整空间区域分辨率(选择不同的空间区域数量)重新运行外部工具。此外,由于它们依赖于特定的基因集,这些方法通常需要在基因集的交集上进行训练,这会显著减少可用的基因数量,从而影响性能。值得注意的是,即便应用于具有共用面板的幻灯片中,这些模型也往往主要识别出的是与单个幻灯片相关的特定领域,这限制了在更广泛的研究中对不同领域进行比较的可能性,并降低了发现新的空间生物标志物的潜力。
为解决这些局限性,我们引入了 Novae,这是一种自监督的 15 节点注意力网络 16 ,它将局部环境编码为空间表示。与现有方法不同的是,同一个 Novae 模型可以与多个基因面板协同工作,从而能够在各种技术和组织中得到应用。它包括原生的批次效应校正方法,直接纠正差异并增强鲁棒性和可扩展性。因此,Novae 的设计使其能够无缝地整合来自不同平台和基因面板的数据,而不会影响性能。我们在一个包含 78 张切片的大型数据集上训练了 Novae,这些切片涵盖了 18 种组织和三种不同的亚细胞分辨率技术(Xenium5、MERSCOPE6 和 CosMX7),近 3000 万个细胞。这种广泛的训练使 Novae 能够通过零样本 17 或在来自不同组织的新切片上进行微调来计算相关表示。这些表示可以直接用于空间域识别,无需使用外部聚类工具。除了空间域识别之外,这些表示形式还可应用于各种后续任务,包括:(1)空间域轨迹分析;(2)空间变量基因(SVG)分析;以及(3)空间通路分析。Novae 的多功能性、稳健性和易用性使其成为科学界推进空间转录组学研究的强大工具。

代码

https://github.com/MICS-Lab/novae

参考

  • Novae: a graph-based foundation model for spatial transcriptomics data
  • https://github.com/MICS-Lab/novae
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 22:01:49

如何快速掌握OpenCLIP:多模态AI的完整实践指南

如何快速掌握OpenCLIP:多模态AI的完整实践指南 【免费下载链接】open_clip An open source implementation of CLIP. 项目地址: https://gitcode.com/GitHub_Trending/op/open_clip 想要在AI领域脱颖而出?OpenCLIP作为多模态对比学习的开源实现&a…

作者头像 李华
网站建设 2026/4/10 12:39:23

Foliate电子书阅读器完整指南:打造优雅的数字阅读体验

Foliate电子书阅读器完整指南:打造优雅的数字阅读体验 【免费下载链接】foliate Read e-books in style 项目地址: https://gitcode.com/gh_mirrors/fo/foliate Foliate是一款基于GNOME平台的开源电子书阅读器,专为现代用户设计,完美支…

作者头像 李华
网站建设 2026/4/5 0:26:33

Very Sleepy:Windows性能瓶颈的终极解决方案

Very Sleepy:Windows性能瓶颈的终极解决方案 【免费下载链接】verysleepy Very Sleepy, a sampling CPU profiler for Windows 项目地址: https://gitcode.com/gh_mirrors/ve/verysleepy 还在为Windows应用程序性能问题而头疼吗?🤔 想…

作者头像 李华
网站建设 2026/4/5 6:57:41

S/4HANA(ECC 同路径)里“把长期待摊费用-开办费设为仅出现在平行分类账 L1”的完整操作路径与屏幕字段值,按先后 10 个步骤列式

S/4HANA(ECC 同路径)里“把长期待摊费用-开办费设为仅出现在平行分类账 L1”的完整操作路径与屏幕字段值,按先后 10 个步骤列式,可直接照做。事务代码:FS00(集中维护会计科目主数据)输入科目表&…

作者头像 李华
网站建设 2026/4/12 13:00:55

Avizo桌面通知神器:多媒体键视觉反馈的完美解决方案

在Linux桌面环境中,多媒体键的使用体验往往不尽如人意。按下音量键却看不到当前音量级别,调节亮度时缺乏直观反馈,这些问题困扰着众多用户。今天,我们将为您介绍一款专为多媒体键设计的通知守护进程——Avizo,它能够为…

作者头像 李华