news 2026/4/16 17:37:17

NT的启动子数据集说明(来源于GENCODE)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
NT的启动子数据集说明(来源于GENCODE)

来源于:https://www.gencodegenes.org/human/release_44.html

怎么划分的?

原始数据是什么
它用了两个官方文件:

  • promoter 坐标文件
    Hs_EPDnew_006_hg38.bed
    https://epd.expasy.org/ftp/epdnew/H_sapiens/006/Hs_EPDnew_006_hg38.bed
  • motif 注释文件
    promoter_motifs.txt
    https://epd.expasy.org/ftp/epdnew/H_sapiens/006/db/promoter_motifs.txt

其中 bed 文件里的每一条 promoter,长度都是 60bp,对应论文里说的:

  • 49bp upstream + 10bp downstream of TSS

NT 是怎么处理的

  1. 先读取 Hs_EPDnew_006_hg38.bed 里的所有 human promoter。
  2. 用 promoter_motifs.txt 给每条 promoter 打标签:
    • TATA-box = 1 -> TATA promoter
    • TATA-box = 0 -> non-TATA promoter
  3. 再把原始 promoter 区间变成固定长度的 300bp 序列窗口,作为正样本候选。
  4. 从基因组里找所有“不和任何 promoter 重叠”的 300bp 窗口,作为负样本候选。
  5. 去掉含 N 的序列。
  6. 按染色体切分:
    • chr20 和 chr21 作为 test
    • 其他染色体作为 train
  7. 对每个任务,把负样本下采样到和正样本一样多。
  8. 再做随机下采样,控制 benchmark 规模。

三个任务是怎么来的
同一批 promoter 和同一批 non-promoter 负样本,被拆成了 3 个二分类任务:

  • Promoter all
    • 正样本:所有 promoter
    • 负样本:不和任何 promoter 重叠的 300bp 窗口
  • Promoter TATA
    • 正样本:只有 TATA promoter
    • 负样本:不和任何 promoter 重叠的 300bp 窗口
  • Promoter no-TATA
    • 正样本:只有 non-TATA promoter
    • 负样本:不和任何 promoter 重叠的 300bp 窗口

你本地发布版数据也能看出这个关系:

  • promoter_all test:792 正样本
  • promoter_tata test:106 正样本
  • promoter_no_tata test:686 正样本

怎么下载数据集呢?

这里的 CHR / ALL / PRI 是在说:这个注释文件覆盖的是哪一类基因组区域,不是文件格式。

你可以这样理解:

  • CHR
    只包含标准参考染色体
    也就是常见的 chr1 到 chr22、chrX、chrY、chrM 这类主染色体。
    这是最“干净”、最常用的一版。

  • ALL
    包含所有区域
    不只是标准染色体,还包括:

    • scaffolds
    • assembly patches
    • alternate loci / haplotypes
      这一版最全,但也最复杂。
  • PRI
    表示Primary assembly
    通常是:

    • 主染色体
    • 再加上一些 primary assembly 里的 scaffolds
      它比 CHR 更大,但又没有 ALL 那么杂。

你可以把它们记成范围大小:

  • CHR:最精简
  • PRI:中间
  • ALL:最全

为什么会有这些区别
因为人类参考基因组不只有 chr1~chr22,X,Y 这些主染色体,还可能有:

  • 未定位 scaffold
  • patch
  • alternate haplotype 区域

不同分析需求要的范围不一样,所以 GENCODE 给了多个版本。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 17:36:36

基于VMD-KPCA-PINN多变量时序预测 (多输入单输出) 基于变分模态分解-核主成分分析-物理信息神经网络的多变量时序预测 matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页:Matlab科研工作室👇 关注我领取海量matlab电子书和…

作者头像 李华
网站建设 2026/4/16 17:26:32

如何在Windows上使用SMUDebugTool深度调试AMD Ryzen处理器硬件参数

如何在Windows上使用SMUDebugTool深度调试AMD Ryzen处理器硬件参数 【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://g…

作者头像 李华
网站建设 2026/4/16 17:22:49

GESP2024年3月认证C++三级( 第三部分编程题(2、完全平方数)

一、🏰 故事开始:魔法数字宝箱小杨同学有一排数字宝石:1 4 3 3 5他想从里面任选 两个宝石,看看它们相加后,是不是一种神奇数字:✨ 完全平方数二、🎯 什么叫完全平方数?就是某个整数自…

作者头像 李华