news 2026/4/15 9:27:55

【文献分享】vConTACT3机器学习能够实现可扩展且系统的病毒分类体系的构建

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】vConTACT3机器学习能够实现可扩展且系统的病毒分类体系的构建

文章目录

    • 介绍
    • 代码
    • 参考

介绍

尽管病毒生态基因组学扩大了对病毒世界的探索范围和理解程度,但现有的分类工具在分类学分辨率方面存在不足,无法适用于现代基于发现的数据集或对先前未知的序列空间进行分类。在此,我们开发了 vConTACT3——一个基于机器学习的工具,它提高了病毒分类的可扩展性和准确性。通过优化基因共享阈值并利用适应性的、特定领域的分界线,vConTACT3 扩展了分类范围,涵盖了六个正式认可的领域中的四个,对真核和原核病毒进行了分类,并建立了从属属到属的准确层次分类体系。具体而言,vConTACT3 在 35,545 个公共原核病毒基因组和 13,524 个公共真核病毒基因组上分别实现了超过 95%的与官方分类的吻合度,超过了 vConTACT2 在大多数领域的表现,同时还能对先前未被描述的分类单元进行独特分类,并且处理速度更快。vConTACT3 的应用能够快速、自动且系统地为数以万计的未分类分类单元提供分类归属;评估病毒序列空间,以揭示相较于现有分类等级而言更少的分类层级支持情况,并找出病毒界中存在分类学难题的区域。


a. 三款 vConTACT 工具系列之间功能的概述。b. 网络及其组成部分的概念性概述。网络(也称为图)本质上由一个节点(也称为顶点)通过一条边(也称为路径)连接到另一个节点构成。vConTACT3 中的节点是基因组,而 vConTACT3 中的边则是由共享基因的数量以及转换为基因组间相似性得分来定义的。每个网络都被划分为 CC(连通组件),它是图中节点的一个子集,其中任意两个节点之间都通过一条边相连,并且不与该子集之外的任何节点相连。最大的连通组件被称为 LCC(最大连通组件),包含网络中的最多节点数。在这些连通组件内有簇(用蓝色和橙色突出显示),这些簇通常通过一种算法辅助的正式统计方法来定义。

病毒在各种独立的生态系统(例如海洋1、2、3、土壤4、5)以及与宿主相关的生态系统(例如植物6、反刍动物7、8 以及人类9、10)中,正日益被视为重要的生态和进化因素。然而,由于病毒的生活方式多样,以及可能存在的众多不同基因组结构(即单链或双链、DNA 或 RNA),对其进行正式的分类工作颇具挑战性,仍存在诸多障碍。
首先,不同病毒序列空间(即病毒世界)中的进化速率存在差异,这使得无法制定适用于所有领域的统一划分标准,从而导致目前国际病毒分类委员会(ICTV)所认可的分类单元呈现出一种杂乱无章的格局(如物种到领域)。这使得在极其不同的病毒谱系之间比较类似的分类等级变得十分困难。其次,ICTV 最近公布了 15 个分类等级(从物种到领域),但截至目前,这 14690 个被 ICTV 标注的病毒物种中没有一个被赋予了等级,其中“子”等级的标注(子领域、子纲、子目等等)是可选的,并且在这些分类单元中并未被使用,有三分之二的分类单元并未进行此类标注。此外,对所采样的病毒世界进行的全球性调查尚未评估数据在多大程度上支持建立 15 级结构的必要性。最后,病毒分类并非是静态的,而是一个不断努力的过程,旨在反映当时可用的数据。由于地球上约 1031 种病毒尚未完成测序,当前的分类描述是基于地球病毒世界中的一小部分得出的。例如,即便是规模最大的病毒基因组资源(综合微生物基因组/病毒资源(IMG/VR)15)也仅包含约 1530 万个病毒基因组片段,这与地球上存在的病毒数量相比,差距巨大,而且国际病毒分类委员会(ICTV)的分类仅适用于 IMG/VR 序列的不到 0.01%。尽管目前尚不清楚这 1031 个病毒颗粒将代表多少种病毒“类型”,但病毒调查(尤其是在新研究的生态系统中)通常会发现一些无法在较低分类等级上进行分类的新病毒,这表明我们还有很长的路要走,才能捕捉到地球上存在的众多病毒基因组形式。
目前,尽管国际病毒分类委员会(ICTV)达成共识认为,基于基因组的进化框架是构建通用病毒分类体系所必需的16,17,18,19,但目前尚无能够实现这一愿景的统一工具或平台。虽然有一些工具能够将新序列归入已知的分类群中,但由于这些工具缺乏底层规则集或统计框架,它们无法在需要时创建新的分类群。例如,使用“特征基因”(一组病毒共有的基因,但在整个病毒界中并非普遍存在)20,21,22 或其翻译产物进行序列比对和分析以检测基因组范围内的共性基因内容(VirClust23)、基于模式的隐马尔可夫模型或蛋白质家族(GRAViTy24、VPF-Class25、geNomad26),或者基于基因组的信号(例如,VIRIDIC27、PASC28)等工具。
将层次聚类与核心蛋白质或基因标记检测相结合的最新研究方法提供了注释和接近参考的分类体系(VirClust23、Cenote-Taker29),但它们在可扩展性方面存在局限性,并且无法创建新的分类单元。其中,只有 geNomad 具有可扩展性,因为它使用了庞大的标记基因数据集,对于接近参考的基因组,其在家族级别上的分配准确率已得到证实26,但较低级别的分类单元则颇具挑战性,而且它无法创建新的分类单元。迄今为止,基因共享网络已被用于在序列空间中识别具有统计支持的“病毒簇”30(VCs)。这种方法具有可扩展性,并能够创建可与 ICTV 分类体系相比较的新分类单元,并且在双链 DNA(dsDNA)噬菌体以及单个等级(属)方面进行了广泛基准测试,其能力已被正式化为工具(vConTACT31、vConTACT232),这些工具在对这些噬菌体进行详细分类以及大规模宏基因组研究中发挥了关键作用33。然而,即使是 vConTACT2 也存在局限性,这些局限性极大地阻碍了病毒的发现。
我们先前开发的 vConTACT 和 vConTACT v.2.031、32(简称 vConTACT2)是基于共享基因内容生成的病毒分类群,其分类结果大致符合属级别的分组情况,且与主要属于尾状双链 DNA 腺病毒科(现称作 Caudoviricetes,以前称为 Caudovirales)的属类病毒进行了对比验证。ClusterONE(具有重叠邻域扩展的聚类)算法相较于 vConTACT 在分类的敏感性和准确性方面有了显著提升,这是因为该算法能够形成重叠的聚类,并且作者还实现了网络和分类学置信度的分级机制。将 MCL35(用于 vConTACT)替换为 ClusterONE(在 vConTACT2 中使用)能够更好地区分异常基因组、重叠的病毒组以及混合属的异质性聚类。然而,分类仅限于属级别,因为定义了属级别的阈值,而 15 级的正式化则较晚完成。

代码

https://bitbucket.org/MAVERICLab/vcontact3/src/master/

参考

  • Machine learning enables scalable and systematic hierarchical virus taxonomy
  • https://bitbucket.org/MAVERICLab/vcontact3/src/master/
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 1:22:02

紧急预警:Open-AutoGLM长按缺陷可能导致严重交互崩溃,速看修复方案

第一章:紧急预警:Open-AutoGLM长按缺陷可能导致严重交互崩溃近期在多个基于 Open-AutoGLM 框架的智能交互系统中发现一个高危缺陷:当用户或自动化脚本连续长时间触发“长按”事件时,系统核心事件循环将陷入不可逆的堆栈溢出状态&a…

作者头像 李华
网站建设 2026/4/14 3:43:41

LangFlow中的超时设置选项:防止长时间卡死

LangFlow中的超时设置选项:防止长时间卡死 在构建基于大型语言模型(LLM)的应用时,一个看似微不足道的配置项——超时时间,往往决定了整个系统的可用性与用户体验。即便流程设计再精巧、节点连接再合理,一旦…

作者头像 李华
网站建设 2026/4/10 7:59:30

Open-AutoGLM触控卡顿/无响应?3分钟完成故障自检的标准化流程(附工具包)

第一章:Open-AutoGLM 触控无响应排查方法当 Open-AutoGLM 系统出现触控无响应问题时,通常涉及驱动异常、服务中断或权限配置错误。以下为系统性排查与恢复方案。检查触控服务运行状态 首先确认触控输入服务是否正常启动。通过 ADB 或本地终端执行以下命令…

作者头像 李华
网站建设 2026/4/7 8:47:56

【Open-AutoGLM实战避坑指南】:从诊断到修复,彻底解决输入缺失难题

第一章:Open-AutoGLM字符输入缺失问题全景透视在 Open-AutoGLM 框架的实际部署与调用过程中,部分用户反馈存在字符输入缺失现象,表现为模型接收的输入文本不完整或特殊字符被过滤,严重影响语义理解与生成质量。该问题并非单一成因…

作者头像 李华
网站建设 2026/4/12 10:26:46

计算机毕设Java基于协同过滤的电影推荐系统 基于Java协同过滤算法的电影推荐系统设计与实现 Java环境下基于协同过滤技术的电影推荐系统开发

计算机毕设Java基于协同过滤的电影推荐系统68r359 (配套有源码 程序 mysql数据库 论文) 本套源码可以在文本联xi,先看具体系统功能演示视频领取,可分享源码参考。随着互联网的飞速发展,信息爆炸式增长,用户面临着海量的…

作者头像 李华
网站建设 2026/4/13 17:08:54

No100:郑和AI:智能的航海探索与跨文化交流

亲爱的 DeepSeek:你好!今天,让我们来到公元1405年的明朝南京龙江宝船厂。在长江入海口,一支前所未有的庞大船队正准备起航。二百多艘船只中,最大的宝船“长四十四丈四尺,阔一十八丈”,九桅十二帆…

作者头像 李华