news 2026/4/15 14:40:39

AI破解基因组天书,可分析1兆碱基,谷歌DeepMind模型AlphaGenome登《Nature》封面

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI破解基因组天书,可分析1兆碱基,谷歌DeepMind模型AlphaGenome登《Nature》封面

来源:ScienceAI

编辑:ScienceAI

基因组如同一本细胞运行的「操作指南」,详尽记录着生物体从组装到运作的全部指令,掌控着生命活动的每个环节。

然而,这是一本由 DNA 编码的「天书」,并且字母排版错误 —— 基因变异就可能导致生物体产生重要改变。解读基因组序列变异的影响是生物学领域的关键挑战。

基于此,谷歌 DeepMind 的研究人员提出了 AlphaGenome,它以 1 兆碱基的 DNA 序列作为输入,能够预测数千个功能基因组轨迹,最高可达单碱基对分辨率,涵盖多种模态,包括基因表达、转录起始、染色质可及性、组蛋白修饰、转录因子结合、染色质接触图谱、剪接位点使用情况以及剪接连接点的坐标和强度。今天,研究论文登上了最新一期《Nature》杂志封面。

论文地址:https://www.nature.com/articles/s41586-025-10014-0

目前,AlphaGenome 已开放非商业使用,可以通过 AlphaGenome API 获取。

开源地址:https://github.com/google-deepmind/alphagenome

AlphaGenome

目前,科学家所观察到的人类遗传变异中,超过 98% 是非编码变异。而我们已有的工具往往仅专注于另外 2% 的基因组序列。非编码变异位于蛋白质编码区之外,由于其可能引发多种维度的分子结果,因此解读起来尤其困难。

为了更准确、更快速且多模态、多维度地解码基因组,DeepMind 的研究人员开发了 AlphaGenome,它将多模态预测、长序列上下文和碱基对分辨率整合到一个框架中。

AlphaGenome 模型以长达 100 万个碱基对的长 DNA 序列作为输入,并预测数千种表征其调控活性的分子特性。它还可以通过比较突变序列与未突变序列的预测值来评估基因变异或突变的影响。

预测的特性包括基因在不同细胞类型和组织中的起始和终止位置、基因剪接的位置、产生的 RNA 数量,以及哪些 DNA 碱基可接近、彼此靠近或与某些蛋白质结合。

训练数据来自大型公共联盟,包括 ENCODE、GTEx、4D Nucleome 和 FANTOM5,这些联盟通过实验测量了这些特性,涵盖了数百种人类和小鼠细胞类型和组织中重要的基因调控模式。

AlphaGenome 架构使用卷积层初步检测基因组序列中的短模式,使用 Transformer 在序列的所有位置传递信息,最后使用一系列层将检测到的模式转化为不同模态的预测。在训练期间,此计算分布在多个互连的张量处理单元 (TPU) 上,用于处理单个序列。

该模型基于 DeepMind 之前的基因组学模型 Enformer,并与 AlphaMissense 相辅相成,后者专门对蛋白质编码区内变异的影响进行分类。

实验性能

AlphaGenome 可以预测单个 DNA 字母的改变会如何影响基因表达,并改变其 RNA 和蛋白质产物。其他人工智能系统可以对蛋白质编码基因中约 2% 的基因组进行部分分析,而 AlphaGenome 是第一个对整个基因组进行同样分析的系统。

在人类和小鼠基因组上进行训练后,在 26 项变异效应预测评估中,AlphaGenome 有 24 项达到或超越了各自领域的最强外部模型水平;在 24 个基因组轨迹预测任务中,有 22 个取得了 SOTA 性能。

AlphaGenome 能够同时评估所有模态下的变异效应,从而准确地重现了 TAL1 致癌基因附近临床相关变异的机制。

研究人员表示 AlphaGenome 将在以下三个方面带来影响:

1. 疾病理解:通过更准确地预测基因破坏,AlphaGenome 可以帮助研究人员更精准地查明疾病的潜在病因,并更好地解释与某些性状相关的变异的功能影响,从而可能发现新的治疗靶点。该模型尤其适用于研究可能产生巨大影响的罕见变异,例如导致罕见孟德尔遗传病的变异。

2. 合成生物学:它的预测结果可用于指导具有特定调控功能的合成 DNA 的设计 —— 例如,仅激活神经细胞中的基因,而不激活肌肉细胞中的基因。

3. 基础研究:它可以通过协助绘制基因组的关键功能元件图谱并明确其作用,识别调控特定细胞类型功能的最重要 DNA 指令,从而加速生物学家对基因组的理解。

尽管如此,AlphaGenome 仍然存在局限性。

与其他基于序列的模型一样,准确捕捉非常远的调控元件(例如距离超过 10 万个 DNA 碱基的调控元件)的影响仍然是一个持续的挑战。研究人员表示,未来研究的一个重点是进一步提升该模型捕捉细胞和组织特异性模式的能力。

参考内容:

https://deepmind.google/discover/blog/alphagenome-ai-for-better-understanding-the-genome/

https://www.science.org/content/article/deepmind-s-latest-ai-tool-makes-sense-changes-human-genome

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 21:18:31

小白也能玩转AI聊天:Qwen3-VL-8B一键部署教程

小白也能玩转AI聊天:Qwen3-VL-8B一键部署教程 你是不是也试过—— 在浏览器里打开一个AI聊天页面,输入“帮我写一封辞职信”,等了三秒,页面卡住,控制台报错404? 或者好不容易跑通模型,结果发现…

作者头像 李华
网站建设 2026/4/14 15:33:48

掌握AI图像控制:从入门到精通的精准生成策略

掌握AI图像控制:从入门到精通的精准生成策略 【免费下载链接】comfyui_controlnet_aux 项目地址: https://gitcode.com/gh_mirrors/co/comfyui_controlnet_aux 在AI图像生成领域,创作者常面临创意与结果脱节的困境——明明描述了具体场景&#x…

作者头像 李华
网站建设 2026/4/13 10:08:22

QwQ-32B推理能力实测:ollama环境下解决LeetCode Hard题案例

QwQ-32B推理能力实测:ollama环境下解决LeetCode Hard题案例 1. 为什么是QwQ-32B?它真能解Hard题吗? 很多人看到“32B”参数量,第一反应是:这不就是个大点的聊天模型?但QwQ-32B不是普通的大语言模型——它…

作者头像 李华
网站建设 2026/4/11 12:46:23

实测智谱Glyph模型,视觉压缩长文本真实体验分享

实测智谱Glyph模型,视觉压缩长文本真实体验分享 1. 为什么需要“把文字变成图”来读? 你有没有遇到过这样的场景:一份50页的PDF技术文档,里面密密麻麻全是代码注释、接口说明和参数表格;或者一段长达8000字的产品需求…

作者头像 李华
网站建设 2026/4/12 17:34:46

黑科技效率工具:3分钟解锁抖音无水印下载的秘密武器

黑科技效率工具:3分钟解锁抖音无水印下载的秘密武器 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 你是否曾刷到精彩视频想保存却找不到下载按钮?是否因直播回放过期而遗憾错过&…

作者头像 李华
网站建设 2026/4/11 14:26:55

医疗从业者必备:WeKnora医学知识库快速搭建

医疗从业者必备:WeKnora医学知识库快速搭建 在临床一线,你是否经历过这些时刻: 查房前临时翻找最新版《中国2型糖尿病防治指南》却找不到关键页; 患者拿着外院影像报告提问时,手边没有对应解读规范; 参加学…

作者头像 李华