PaddleHelix(中文名“螺旋桨”)是百度基于飞桨(PaddlePaddle)深度学习框架开源的生物计算平台,把 AI 能力打包成一套“即插即用”的工具集,主要服务新药发现、疫苗设计、精准医疗三大场景。
一句话理解:
“做生物医药领域的 AI 基建,让不会写算法的人也能 5 行代码跑蛋白结构预测或分子生成。”
🔍 核心能力(9 大模型工具)
| 模块 | 典型任务 | 代表模型 / 算法 |
|---|---|---|
| 1. 蛋白结构预测 | 单序列、复合物、DNA-蛋白-小分子共折叠 | HelixFold3(精度对标 AlphaFold3) |
| 2. 分子属性预测 | ADMET、溶解度、毒性 | HelixGEM-2(OGB 榜单第一) |
| 3. 药物-靶点相互作用 DTI | 亲和力打分、虚拟筛选 | GraphDTA、MolTrans |
| 4. 分子生成 | 全新骨架、类药性、可合成性 | MolGen、HelixGEM |
| 5. RNA 结构与设计 | 二级结构预测、mRNA 疫苗序列优化 | LinearFold、LinearPartition(线性时间,比传统快数百倍) |
| 6. 蛋白-蛋白相互作用 PPI | 结合位点、亲和力 | HelixPPI |
| 7. 药物-药物协同 DDS | 联合用药效果预测 | HelixDDS |
| 8. 化合物表征 | 大规模预训练、迁移学习 | Compound-BERT |
| 9. 蛋白表征 | 序列到功能端到端嵌入 | Protein-BERT |
🛠 技术亮点
预训练+微调范式
先在上亿分子、百万蛋白序列上做自监督预训练,再在小样本下游任务微调,解决生物数据稀缺问题。几何感知图神经网络
把原子当成节点、化学键当边,让模型自动学习 3D 构象信息,比传统指纹描述符更准。“单机+API”双模式
- 开源代码:GitHub 直接 clone 就能跑,支持 CPU/GPU。
- 在线 API:不会装环境也能调用 HelixFold3 结构预测服务(非商用免费,商用按量计费)。
速度优势
LinearFold 预测 RNA 二级结构线性时间,长序列比传统动态规划快 100–1000 倍。
🧪 应用场景速览
- 新药研发:虚拟筛选 → 分子生成 → ADMET 预测 → 临床前候选化合物,全程 AI 加速。
- 疫苗设计:mRNA 疫苗序列优化(LinearDesign),同时优化稳定性与密码子适应指数。
- 精准医疗:根据患者突变谱,预测药物-药物协同,制定个性化联合方案。
📦 快速体验(5 分钟上手)
# 1. 装飞桨 + PaddleHelixpipinstallpaddlepaddle-gpugitclone https://github.com/PaddlePaddle/PaddleHelix.git# 2. 跑蛋白结构预测(单序列版,无需 MSA)cdPaddleHelix python scripts/helixfold_single.py --seq"MKKLV"--out_dir ./result输出:.pdb三维坐标文件,可直接用 PyMOL 可视化。
⚠️ 商用注意
HelixFold3 等部分模型采用CC BY-NC-SA 4.0协议,禁止直接商用;若需商业用途,百度提供单独 API 授权,需按量付费。
✅ 一句话总结
PaddleHelix =“AI for Bio”全家桶:
把 AlphaFold 级别的结构预测、OGB 榜首的分子属性预测、线性时间 RNA 设计等能力,打包成开源代码 + 在线 API,让生物学家 5 分钟用上最前沿的 AI 模型。
与 PaddleHelix 同场竞技、功能“撞车”的国内外生物计算平台/模型,2024-2025 年集中爆发,可按“结构预测、分子生成、亲和力预测、综合平台”四条赛道对号入座(全部开源或部分开源):
一、蛋白-核酸-配体复合物结构预测(AlphaFold3-like)
| 名称 | 亮点 | 开源程度 | 相对 AF3 差距 | 备注 |
|---|---|---|---|---|
| Boltz-1 | 30-60 s 出一条复合物结构;MIT+DoE 背书 | 完全开源(含权重) | 精度持平;抗体对接略逊 | 已集成 Recursion 管线,可商用 |
| Boltz-2 | 新增“结合亲和力”输出;20 s 完成;Pearson r=0.62(OpenFE 基准) | 推理代码已发,训练脚本待放 | 亲和力预测速度↑1000× | 与 Recursion 共建,支持“物理提示”微调 |
| OpenFold3 | 首个 AF3 全栈复现;RNA 预测略超 AF3;裁剪策略保留 RNA 上下文 | 全开源(代码+权重+数据管道) | 抗体-抗原仍落后;新配体稍弱 | 联盟成员含 Tamarind Bio,可商用 |
| Chai-1 | 专精抗体-抗原对接;结合位点定位精度↑ | 模型权重可下载,代码部分开源 | 抗体场景接近 AF3;通用复合物稍逊 | 适合纳米抗体/IG 设计 |
二、分子生成 & 属性预测(PaddleHelix-GEM 对应)
| 名称 | 亮点 | 开源程度 | 性能对标 |
|---|---|---|---|
| GEM-2(PaddleHelix 自产) | OGB 分子性质榜第一;支持 29 种 ADMET 端点 | 完全开源 | 已集成到 PaddleHelix |
| MolGen(Helix 组件) | 骨架跃迁+可合成性约束;支持类药 QED 过滤 | 完全开源 | 与 GEM-2 无缝衔接 |
| Boltz-2(生成模式) | Structure-based de-novo ligand design 测试中 | 即将释出脚本 | 尚未公开 benchmark |
| AlphaRED | AF2/AF3 结构 + Rosetta 物理打分混合;改善对接姿势 | 代码开源 | 适合后期精修 |
三、结合亲和力快速预测(替代 FEP+)
| 名称 | 速度 & 精度 | 开源 | 备注 |
|---|---|---|---|
| Boltz-2 | 20 s/复合物;Pearson r=0.62 vs OpenFE | 推理已开源 | 1000× 快于传统 FEP |
| OpenFE(开源 FEP) | 物理精度高,但 1-2 h/复合物 | 完全开源 | 可做 Boltz-2 对照 |
四、综合生物计算平台(PaddleHelix-like)
| 名称 | 功能覆盖 | 开源 | 商业授权 |
|---|---|---|---|
| PaddleHelix | 结构+属性+生成+RNA+亲和力 一站式 | 全开源 | 非商用免费,商用需百度授权 |
| Neurosnap | 在线 API 集成 Boltz-1/2、OpenFold3、Chai-1;零安装 | 部分模型开源 | 按量计费,可商用 |
| ColabFold | AF2/AF3 快速推理;MMseqs2 加速 MSA | 开源 | 适合个人研究 |
五、一句话速选指南
- 想本地跑、完全免费、复合物预测→ Boltz-1 / OpenFold3
- 要同时预测“结构+亲和力”且速度逆天→ Boltz-2
- 专做抗体、纳米抗体→ Chai-1
- RNA 结构/疫苗设计→ OpenFold3(RNA 精度↑)或 PaddleHelix LinearFold
- 分子生成+ADMET 端到端→ PaddleHelix GEM-2 / MolGen
- 零安装、在线 API、可商用→ Neurosnap 平台(集成 Boltz & OpenFold3)
以上模型均 2024-2025 年发布,社区活跃,可无缝替换 PaddleHelix 的对应模块;根据任务选“专才”,比“通才”往往更快、更准。
| 维度 | PaddleHelix(GEM-2/MolGen) | DrugGen | 差异一句话 |
|---|---|---|---|
| 技术路线 | 几何图神经网络+自监督预训练 | GPT-2 大语言模型+SFT+PPO 强化学习 | Helix 用“图”,DrugGen 用“语言” |
| 输入 | 靶点 3D 结构或序列+药效团约束 | 仅蛋白质序列(或 UniProt ID) | DrugGen 无需结构,门槛最低 |
| 输出 | 3D 构象+多种理化/ADMET 终点 | 100% 有效 SMILES+预测亲和力 | Helix 给“成药性报告”,DrugGen 给“化学式” |
| 亲和力精度 | OGB 榜居首(回归误差 <0.02 log 单位) | PLAPT 预测中位数 7.22 vs DrugGPT 5.81,提升 24% | 二者均未做 FEP 级别精修,相当 |
| 化学有效性 | 依赖 RDKit 规则,>99% | 内置定制验证器,100% | DrugGen 略高 |
| 新颖性 | 可控(可调节相似度阈值) | 相对 DrugBank 新颖性 41.9%,低于 DrugGPT 66.8%(因继承已批准药物特征) | Helix 更灵活 |
| 速度 | 单次生成数千分子/分钟 | 批量 10-100 个/次,秒级 | Helix 通量高,DrugGen 单条快 |
| 数据依赖 | 需大规模分子库预训练(千万级) | 仅用 9 398 条“已批准药物-靶点”对即可微调 | DrugGen 小数据友好 |
| 商用授权 | 非商用免费,商用需百度授权 | 论文/代码开源,未明确限制 | 目前 DrugGen 更宽松 |
| 局限 | 需要靶点结构;对序列-only 新靶点束手无策 | 无法指定结合口袋;ACE 多位点靶点表现下降 | 互补——“结构 vs 序列” |
一句话选型
- 有 3D 口袋→ PaddleHelix(结构导向,ADMET 一站式)
- 只有序列→ DrugGen(LLM 秒级生成,100% 有效,快速拿 SMILES)
- 后期精修→ 两家生成分子都可再扔给 Boltz-1/2 或 FEP 做“二级过滤”。