news 2026/5/8 8:27:02

【文献分享】CellWhisperer多模态学习使得基于对话的方式能够对单细胞数据进行探索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【文献分享】CellWhisperer多模态学习使得基于对话的方式能够对单细胞数据进行探索

文章目录

    • 介绍
    • 代码
    • 参考

介绍

单细胞测序能够以前所未有的规模和细节对生物样本进行特征描述,但数据解读仍颇具挑战性。在此,我们推出了“CellWhisperer”,这是一种基于对话的基因表达查询的人工智能(AI)模型和软件工具。我们通过对比学习对 100 万个 RNA 测序数据集与由 AI 管理的描述建立了转录组及其文本注释的多模态嵌入。这个嵌入为一个大型语言模型提供了信息,该模型能够通过自然语言对话回答关于细胞和基因的问题。我们对 CellWhisperer 在零样本预测细胞类型和其他生物学注释方面的性能进行了基准测试,并展示了其在人类胚胎发育的元分析中的生物发现应用。我们将 CellWhisperer 对话框与 CELLxGENE 浏览器集成在一起,使用户能够通过结合图形和对话界面来交互式地探索基因表达。总之,CellWhisperer 利用大规模社区规模的数据库来连接转录组和文本,从而能够通过自然语言对话实现对单细胞 RNA 测序数据的交互式探索。

CellWhisperer 训练数据集生成的概念性框架(左)、模型训练与推理(中)以及在单细胞 RNA 测序数据分析中的应用(右)。b,来自 GEO 数据库的人类转录组的 CellWhisperer 嵌入的 UMAP 可视化。使用 Leiden 算法计算聚类,并由 CellWhisperer 生成聚类标签。CellWhisperer 标注的数据集可在项目网站(https://cellwhisperer.bocklab.org/geo)上进行交互式分析。c,针对自由文本查询词“感染”的 CellWhisperer 评分投影在 b 中转录组嵌入的 UMAP 上。d,根据 CellWhisperer 生成的聚类标签选择的转录组的样本元数据检索(此处为:GEO 提交日期)。

基因表达分析在细胞和组织的特性鉴定中得到了广泛应用1,2。大规模的 RNA 测序(RNA-seq)通过一种简便且经济高效的检测方法,能够对细胞状态和生物学功能进行详细评估3。此外,通过单细胞 RNA 测序(scRNA-seq),研究人员能够解析组织、器官和疾病中的细胞组成及其生物学异质性4。大规模的单细胞 RNA 测序也是人类细胞图谱项目的核心部分,该项目旨在创建人体内所有细胞类型的参考图谱5。
一个典型的单细胞 RNA 测序(scRNA-seq)数据集可以用一个包含约 20,000 个基因以及数千或数百万个单细胞的计数矩阵来表示。分析和解读这类数据集是一项复杂的任务,需要兼具生物信息学技能和特定应用领域的生物学知识。为了便于进行 scRNA-seq 数据分析,已经开发出了一系列软件工具,用于涵盖各种任务,包括数据可视化、细胞聚类、细胞类型注释、差异表达和基因集分析等6。此外,基于深度学习的“单细胞基础模型”(scFMs)已在大规模的 scRNA-seq 数据集上进行训练,有望超越专门工具,并支持那些它们未明确针对的广泛分析任务7,8。
在这里,我们展示了如何通过自然语言对单细胞 RNA 测序数据进行探索,使用户能够用英语来查询细胞信息,无需遵循任何特定的格式或语法规则。我们的 CellWhisperer 框架支持自由文本搜索(例如“给我展示肠道中的组织驻留 T 细胞”),并能回答关于细胞的一系列广泛问题(例如,“这些选定的细胞是什么?”、“这些细胞中哪些基因的表达水平很高?”、“KLRD1 在自然杀伤(NK)细胞中的作用是什么?”)。该模型的回答是基于所选的单细胞 RNA 测序数据以及大型语言模型(LLM)的生物学知识相结合的结果,例如“选定的细胞似乎是 CD16+ NK 细胞,这是 NK 细胞的一个子集,在先天免疫反应中起着至关重要的作用 […]”,“这些细胞中表达最高的基因包括 NKG7、KLRD1、GNLY、GZMA、PRF1 […]”,“KLRD1(CD94)是一种在 NK 细胞激活和细胞毒性中起作用的受体。它能够识别靶细胞上的 MHC I 分子并触发 NK 细胞介导的细胞毒性”。
CellWhisperer 通过两个相互交织的人工智能(AI)模型实现了这一功能。首先,CellWhisperer 嵌入模型通过多模态对比学习9 将 RNA 谱图及其由元数据衍生的文本注释整合在一起,从而创建了转录组和文本的联合多模态嵌入。CellWhisperer 的训练数据包括超过一百万个转录组及其自然语言描述,这些数据是由人工智能辅助的整理从两个大型数据库(基因表达综合数据库10,11 和 CELLxGENE 计划12)中获得的。其次,CellWhisperer 聊天模型采用开放权重的语言模型13,14 来回答关于细胞状态的自由文本问题,同时将用户提供的转录组谱图作为多模态输入加以考虑。将这两个模型结合起来,CellWhisperer 使基于交互式聊天的 scRNA-seq 数据探索成为可能,我们将其整合到了广泛使用的 CELLxGENE Explorer15 中。CellWhisperer 软件、模型、训练数据和源代码可在网上获取(https://cellwhisperer.bocklab.org),使用示例见图 5 和补充注释 1。
总之,我们开发了 CellWhisperer 作为自然语言作为一种直观的渠道来与 scRNA-seq 数据集进行交互的证明概念(补充视频 1)。这得益于一个结合了转录组和文本的多模态人工智能模型,以及一个整合了生物知识的聊天模型。我们设想通过自然语言对数据进行查询将成为未来基于人工智能的生物信息学研究助手的关键要素。

代码

https://cellwhisperer.bocklab.org/

参考

  • Multimodal learning enables chat-based exploration of single-cell data
  • https://cellwhisperer.bocklab.org/
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/4 8:47:37

Kotaemon + 大模型Token:高效处理海量文本生成任务

Kotaemon 大模型Token:高效处理海量文本生成任务 在企业智能化浪潮中,一个常见的痛点浮出水面:用户问客服“我的订单为什么还没发货?”,系统却只能机械回复“请查看物流信息”——因为它既不了解上下文,也…

作者头像 李华
网站建设 2026/5/3 15:14:44

AI语音滥用风险防控:EmotiVoice的应对措施

AI语音滥用风险防控:EmotiVoice的应对措施 在某次虚拟偶像直播中,观众突然听到主播用一种从未听过的“愤怒”语气回应弹幕:“你根本不懂我!”——而这条语音并非预录,也非真人发声,而是由AI实时生成。这一幕…

作者头像 李华
网站建设 2026/4/27 6:05:17

EmotiVoice降低语音AI使用门槛

EmotiVoice:让每个人都能拥有会“说话”的AI 你有没有想过,只需几秒钟的录音,就能让AI用你的声音讲故事?或者让虚拟角色在对话中真正“愤怒”或“开心”,而不是机械地念出字句?这不再是科幻电影里的桥段——…

作者头像 李华
网站建设 2026/5/7 7:36:56

EmotiVoice语音合成引擎的热更新能力实现方式

EmotiVoice语音合成引擎的热更新能力实现方式 在智能语音应用日益普及的今天,用户对TTS(文本转语音)系统的要求早已超越“能说话”的基本功能。无论是虚拟主播的情绪起伏、客服机器人的语气亲和力,还是有声书中不同角色的音色切换…

作者头像 李华
网站建设 2026/5/5 19:26:58

EmotiVoice开源项目常见问题解答(FAQ)汇总

EmotiVoice开源项目常见问题解答(FAQ)汇总 在AI语音技术飞速发展的今天,我们不再满足于“能说话”的机器。用户期待的是有情绪、有个性、像真人一样的声音——这正是EmotiVoice诞生的初衷。 这款开源语音合成引擎自发布以来,因其强…

作者头像 李华