news 2026/4/15 14:46:02

【文献分享】SHICEDO:通过减少过度平滑处理来增强单细胞 Hi-C 数据

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】SHICEDO:通过减少过度平滑处理来增强单细胞 Hi-C 数据

文章目录

    • 介绍
    • 代码
    • 参考

介绍

单细胞 Hi-C(scHi-C)技术极大地促进了我们对三维基因组结构的理解。然而,scHi-C 数据往往较为稀疏且存在噪声,这给后续分析带来了巨大的计算难题。
结果
在本研究中,我们推出了 SHICEDO 这一新型深度学习模型,其专门用于通过生成对抗框架来填补缺失或稀疏捕捉到的染色质联系中的空白,从而增强 scHi-C 联系矩阵。SHICEDO 利用 scHi-C 矩阵的独特结构特征来提取定制特征,从而实现有效的数据增强。此外,该模型还采用了通道级注意力机制,以缓解 scHi-C 增强方法中常见的过度平滑问题。通过模拟和实际数据应用,我们证明 SHICEDO 比现有最先进的方法表现更优,取得了更出色的定量和定性结果。此外,SHICEDO 增强了 scHi-C 数据中的关键结构特征,从而能够更精确地描绘染色质结构,如 A/B 区域、TAD 类似域和染色质环。

三维(3D)基因组结构对于关键生物学过程的调控至关重要,例如基因转录、DNA 复制和细胞分裂(米斯利 2020 年)。Hi-C 技术(利伯曼-艾登等人 2009 年、段等人 2010 年、拉奥等人 2014 年、马等人 2015 年)能够对染色质相互作用进行全基因组范围的定位,从而揭示了三维基因组组织的原理。对 Hi-C 相互作用频率矩阵的分析揭示了染色质组织的多个层次,包括活跃和不活跃(A/B)区域(利伯曼-艾登等人 2009 年)、拓扑相关区域(TADs)(迪肯等人 2012 年)以及染色质环(拉奥等人 2014 年)。
近来,单细胞 Hi-C(scHi-C)技术的出现(Nagano 等人,2013 年、2017 年;Ramani 等人,2017 年)进一步推动了该领域的革新,使我们能够以单细胞水平研究三维基因组结构,从而为单个细胞的空间基因组组织的变异性及动态变化提供了宝贵的见解。然而,由于实验限制和高昂的测序成本,scHi-C 数据目前仅限于少数细胞系或组织。此外,现有的 scHi-C 数据集往往存在低测序深度、大量稀疏性、实验偏差和噪声等问题,所有这些都给后续的数据分析带来了巨大的计算挑战。在这些挑战中,低测序深度和稀疏性尤为关键,因为它们极大地阻碍了对 scHi-C 数据的全面分析。
为解决这一难题,已开发出多种计算方法,通常被称为填补或数据增强方法。这些方法旨在推断缺失或稀疏记录的染色质接触信息,并通过计算手段增加有效的测序深度,从而减少稀疏性,提高单细胞高通量染色质构象测序(scHi-C)数据的整体数据质量和可解释性。由于 scHi-C 数据具有固有的稀疏特性,因此这些方法通常不会以传统意义上的方式提高 scHi-C 矩阵的分辨率,即它们不会缩小基因组区间大小或增加接触矩阵的维度。
例如,scHiCluster(周等人,2019 年)使用卷积和随机游走重启(RWR)插补来缓解数据稀疏性,以便在后续聚类操作前进行处理。同样,SnapHiC(于等人,2021 年)使用基于 RWR 的插补来改进环路检测。然而,基于卷积和随机游走的插补策略往往依赖于局部信息,这可能会引入虚假的正向接触,并导致过度平滑,即在插补矩阵中精细结构细节被掩盖的现象。scHiCcompare(阮等人,2025 年)提出了另一种方法:它通过使用距离感知随机森林模型将基因组距离衰减纳入其设计中,对具有相似基因组距离的染色质接触进行分组进行插补。尽管这有助于减少无关接触带来的偏差,但它仍可能因在相似距离之间借用信息而不保留精细结构而导致过度平滑。Zhang等人(2022 年)引入了 Higashi,这是一种基于超图的深度学习方法,旨在解决 scHi-C 数据中的稀疏性问题。通过将 scHi-C 数据概念化为超图,矢西有效地利用了细胞间的全局信息,通过将来自相似细胞的信号进行汇总来增强共有的染色质特征。虽然矢西提高了 scHi-C 数据的质量,但其聚合策略也可能引入过度平滑(如图 S1 所示,可在生物信息学在线网站的补充数据中获取)。过度平滑的 scHi-C 矩阵往往会丢失精细的结构细节,这可能导致对染色质特征的错误识别。此外,过度平滑还可能无意中降低细胞间的变异性。
另外,基于深度学习的方法已被开发出来以增强 Hi-C 数据。这些方法通常采用监督学习框架,在这个框架中,一个降采样的矩阵会被增强以逼近原始高覆盖度的 Hi-C 矩阵。已经开发出了几种卷积神经网络(CNN)和生成对抗网络(GAN)模型来增强大规模 Hi-C 数据,包括 HiCPlus(Zhang 等人,2018 年)、hicGAN(Liu 等人,2019 年)、DeepHiC(Hong 等人,2020 年)和 EnHiC(Hu 和 Ma,2021 年)。虽然最初是为大规模 Hi-C 数据设计的,但这些方法也可以适用于稀疏的 scHi-C 数据。然而,这种适应往往会导致 scHi-C 矩阵过度平滑(见图 S1,可在生物信息学在线网站的补充数据中获取)。最近,ScHiCEDRN(Wang 等人,2023 年)被开发出来,通过将 scHi-C 数据视为单通道图像,并使用受超分辨率成像技术启发的 GAN 框架来增强 scHi-C 数据。虽然这种方法很有前景,但偶尔会产生图像伪影,并且倾向于预测过多的假阳性接触(见图 S1,可在生物信息学在线网站的补充数据中获取)。
传统

代码

https://github.com/wmalab/SHICEDO

参考

  • SHICEDO: single-cell Hi-C data enhancement with reduced over-smoothing
  • https://github.com/wmalab/SHICEDO
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/14 17:00:02

LeetDown终极指南:5步精通A6/A7设备iOS降级全流程

LeetDown终极指南:5步精通A6/A7设备iOS降级全流程 【免费下载链接】LeetDown a GUI macOS Downgrade Tool for A6 and A7 iDevices 项目地址: https://gitcode.com/gh_mirrors/le/LeetDown LeetDown是一款专为A6和A7设备设计的macOS降级工具,能够…

作者头像 李华
网站建设 2026/4/11 21:52:11

如何快速掌握ECSHOP:开源电商系统的完整建站指南

ECSHOP作为一款完全免费的开源电子商务平台,为中小企业提供了搭建专业网店的完整解决方案。这款基于PHP和MySQL开发的电商系统,让您无需深厚技术背景也能轻松创建功能齐全的在线商店。无论您是想开设服装店、数码产品店还是食品店,ECSHOP都能…

作者头像 李华
网站建设 2026/4/12 21:41:45

基于Java+SSM+Django社区疫情联防联控系统(源码+LW+调试文档+讲解等)/社区防疫系统/疫情联防联控/社区疫情管理/联防联控措施/社区防控系统/疫情社区管理/社区疫情防控/社区疫情联防

博主介绍 💗博主介绍:✌全栈领域优质创作者,专注于Java、小程序、Python技术领域和计算机毕业项目实战✌💗 👇🏻 精彩专栏 推荐订阅👇🏻 2025-2026年最新1000个热门Java毕业设计选题…

作者头像 李华
网站建设 2026/4/12 12:02:00

ThinkPad macOS实战指南:从零开始的完整安装体验

ThinkPad macOS实战指南:从零开始的完整安装体验 【免费下载链接】t480-oc 💻 Lenovo ThinkPad T480 / T580 / X280 Hackintosh (macOS Monterey 12.x & Ventura 13.x) - OpenCore 项目地址: https://gitcode.com/gh_mirrors/t4/t480-oc 还在…

作者头像 李华
网站建设 2026/3/26 12:33:47

Open-AutoGLM在哪下?3分钟告诉你官方地址与实操路径

第一章:智谱开源Open-AutoGLM模型在哪獲取 Open-AutoGLM 是由智谱AI推出的开源自动化生成语言模型,旨在降低大模型使用门槛,提升开发者在低代码或自然语言指令下的建模效率。该模型已在多个主流开源平台公开发布,开发者可通过官方…

作者头像 李华
网站建设 2026/3/30 2:05:19

ComfyUI-Ollama扩展完全指南:打造智能化工作流

ComfyUI-Ollama扩展完全指南:打造智能化工作流 【免费下载链接】comfyui-ollama 项目地址: https://gitcode.com/gh_mirrors/co/comfyui-ollama ComfyUI-Ollama是将Ollama大型语言模型无缝集成到ComfyUI可视化工作流中的强大扩展工具,为AI应用开…

作者头像 李华