新药研发能否脱离实验室细胞培育、动物对照实验,依靠数字化虚拟细胞预判药物对细胞的作用机制?这一过去仅存在于科幻设想中的研发模式,已由国内科研团队落地实现。百曜科技推出全球首款基于LLM-JEPA架构打造的AI虚拟细胞世界模型AURA CellOS,正式推动生命科学研发迈入数字化模拟新阶段。下文将以通俗视角拆解该项技术突破的核心价值,及其对生物医药产业带来的深远变革。
一、行业刚需:AI虚拟细胞为何成为生物医药核心攻坚方向。
生物医药行业长期存在公认的“双十定律”:一款创新药从早期靶点筛选到最终获批上市,平均研发周期长达10年,累计投入超10亿美元,临床整体成功率不足10% 。多年来,整个行业始终难以突破这一高成本、低回报的行业桎梏。
各类疾病发病机制、药物作用通路、细胞治疗效果,本质均是细胞状态动态改变的过程。传统科研模式下,科研人员若要验证药物作用效果,只能反复开展细胞培养、动物体内试验与人体临床试验,试错成本居高不下。
构建数字化复刻细胞、提前模拟药物干预后细胞演化路径的构想,早在三十余年前便被学界提出,斯坦福大学也曾研发全细胞计算模型,但始终未能攻克核心技术短板:早期虚拟细胞不具备自主学习能力,无法复刻不同外界条件下细胞真实状态变化,更难以预判细胞演化趋势,难以落地支撑新药研发工作。
近年间,大模型技术快速迭代,叠加单细胞测序成本持续下行、行业数据量每半年实现翻倍增长,为AI虚拟细胞研发奠定数据与算法基础。2024年末,斯坦福大学团队在《Cell》刊发重磅论文,标志AI虚拟细胞赛道正式进入全球竞速阶段,行业关注度持续攀升。
二、初代AI虚拟细胞的底层技术瓶颈。
在标准化AI虚拟细胞概念成型前,行业内已诞生多款初代单细胞模型,这类模型仅可完成细胞类型识别等基础任务,面对细胞动态演化预测场景则存在明显短板。
当研究人员敲除特定基因、添加药物干预细胞后,初代模型难以精准推演细胞后续变化趋势。核心症结在于训练逻辑存在缺陷:传统模型仅学习静态基因表达图谱,无法掌握细胞状态转变的底层逻辑与演化规律。
简单来说,初代模型仅机械记忆细胞静态特征,无法捕捉细胞动态变化的内在机制;大量具备调控作用的关键基因表达量偏低,易被海量背景数据噪声覆盖,即便持续扩充训练数据,模型性能也无法实现有效提升。
2026年《Nature Methods》刊载的专项研究印证了这一行业困境:研究团队完成6400组模型性能测评,结果显示,仅依靠22万细胞(整体数据集1%)训练,模型性能便抵达上限,即便追加上亿级细胞样本,预测效果也无显著提升。该结论引发行业深度反思,初代单细胞大模型的技术路线已触达性能天花板。
百曜科技发布的AURA CellOS给出破局思路:行业瓶颈并非数据体量不足,而是传统大语言模型架构与单细胞生物数据天然不匹配。只有调整训练目标,让模型学习细胞动态演化规律,而非单纯记忆静态细胞特征,海量生物数据才能转化为真实预测能力。
三、AURA CellOS三大核心创新,首次将世界模型落地细胞领域。
业内对百曜科技的技术方案普遍评价为差异化攻坚路线:行业多数企业聚焦参数规模、数据集体量内卷,该团队另辟蹊径,将自动驾驶、机器人领域成熟应用的世界模型架构首次迁移至单细胞研究领域,打造出全球首个细胞世界模型。
世界模型的核心逻辑是让AI自主构建事物底层运行规律,基于现有状态推演后续变化趋势。本次落地的AURA CellOS模型规模位居行业第一梯队,依托3.905亿条人类单细胞转录组数据完成训练,参数量达120亿,覆盖40余种人体组织、260余种已知人类细胞类型,完整覆盖主流人体细胞样本。模型三大核心创新形成完整技术闭环:
1. 双维度观测视角,捕捉低表达关键调控信号
传统单细胞模型仅单一观测基因静态表达水平,大量低表达但具备核心调控功能的基因极易被忽略。AURA CellOS新增群体统计视角,同步观测单基因表达强度、基因在细胞群体中的信息权重,双重维度叠加可精准抓取隐匿的关键生物信号,大幅提升模型对细胞状态变化的感知灵敏度。
2. JEPA联合嵌入预测架构,倒逼模型掌握底层规律
传统模型训练类似机械背诵文本,仅要求复刻原始细胞图谱,无需理解背后生物学逻辑。JEPA架构重构训练目标:依托一组观测视角的数据,预测另一视角下细胞特征。训练逻辑从“记忆细胞静态样貌”升级为“理解细胞演化本质”,显著强化模型对药物、基因扰动下细胞动态变化的预测能力。
3. 无损扩容训练机制,规避大模型灾难性遗忘问题
AI模型扩容过程中普遍存在“灾难性遗忘”缺陷,模型升级后易丢失前期学习到的基础特征。AURA CellOS设计分层扩容方案:先完成中小型基础模型完整训练,夯实底层生物特征认知;再通过新增专家模块平稳扩容至百亿参数大模型,完整保留前期学习成果,实现模型规模与预测性能同步提升。
整套模型采用三段式分层训练流程:基础模型预训练、无损规模扩容、双视角JEPA专项训练,分步降低研发风险,最大化释放各项创新模块性能。实测数据显示,在细胞动态预测核心指标上,AURA CellOS性能较当前最优开源模型提升66%,是行业内首个突破0.6关键阈值的单细胞基础模型,多项细分任务性能达到全球领先水平。
四、AI虚拟细胞赛道竞速开启,国内团队实现从跟随到并行突破。
当前全球AI虚拟细胞赛道已脱离概念验证阶段,进入技术、产业、资本全方位竞速周期。2025年Arc Institute举办的全球虚拟细胞挑战赛,被视作细胞领域的标准化能力测试,赛事汇集500余支全球参赛队伍,头部参赛团队均由华人科研人员主导,百曜科技核心研发团队正是当年赛事成绩最优队伍。
赛道资本热度持续走高,行业内诞生成立一年融资超10亿美元的头部企业,跨国药企纷纷开展技术合作;全球监管政策同步倾斜,美国FDA出台政策支持计算模型替代部分动物实验,我国也将生物计算、单细胞数字化研究列为前沿重点攻关方向,行业产业化落地窗口全面打开。
目前赛道参与者可划分为三类主体:高校科研机构负责底层算法创新与行业标准制定;百曜科技这类垂直平台企业搭建完整“数据-模型-实验”研发闭环;AI制药企业将虚拟细胞模型直接落地自有药物管线研发。
赛道核心评判标准已发生转变:行业不再单纯比拼模型参数量、数据集规模,更看重企业能否搭建可持续迭代的实验数据闭环,将模型输出结果纳入药物研发决策流程,该综合能力具备极高技术壁垒,难以快速复制。
在AI制药底层创新领域,过去从AlphaFold蛋白预测、小分子AI模型到初代虚拟细胞,核心技术突破均由欧美团队率先完成。如今国内依托自主单细胞测序技术、自研生物大模型,诞生百曜科技等具备完整技术闭环的本土企业,其研发路线与海外头部企业对齐,同步推进自有细胞治疗管线研发,同时为国内外药企提供全周期数字化模拟服务,国内团队正式参与全球技术标准制定,摆脱单一跟随者定位。
五、赛道仍处早期,四大核心挑战待攻克。
AI虚拟细胞产业尚处于发展初期,技术落地仍存在四大核心待解难题:
1.高质量基因、药物扰动标注数据集稀缺,生物测序数据采集、标注成本远高于互联网通用数据;
2.当前模型仅依托转录组单模态数据训练,细胞真实演化同步关联蛋白、代谢、细胞形态等多维度信息,多模态融合技术仍需突破;
3.模型仅能输出预测结果,难以完整输出可验证的生物学机理,无法为科研人员提供可落地的实验假设;
4.商业化价值有待大规模临床项目验证,只有切实缩短新药研发周期、压缩投入成本、提升临床成功率,虚拟细胞模型才能成为生物医药行业通用基础设施。
尽管仍存在诸多技术与产业化难题,但该赛道底层技术路径已完成验证。当行业普遍聚焦通用大模型、通用人工智能时,人体36万亿细胞构成的微观生命系统,是极具价值的数字化建模场景。百曜科技本次推出的AURA CellOS模型,正式打通AI虚拟细胞规模化应用的第一道关口。
【总结】
单细胞AI模型完成从静态特征识别到动态演化推演的范式革新,全球首款LLM-JEPA架构细胞世界模型AURA CellOS落地,为新药研发搭建数字化模拟沙盘。该项技术突破让国内团队在全球AI虚拟细胞赛道占据领先席位。虽然行业仍存在多重技术、商业化挑战,但AI虚拟细胞终将成为生命科学领域核心基础设施,有望打破新药研发“双十定律”,加速创新药物临床落地,惠及更多病患。