来源于:https://www.gencodegenes.org/human/release_44.html
怎么划分的?
原始数据是什么
它用了两个官方文件:
- promoter 坐标文件
Hs_EPDnew_006_hg38.bed
https://epd.expasy.org/ftp/epdnew/H_sapiens/006/Hs_EPDnew_006_hg38.bed - motif 注释文件
promoter_motifs.txt
https://epd.expasy.org/ftp/epdnew/H_sapiens/006/db/promoter_motifs.txt
其中 bed 文件里的每一条 promoter,长度都是 60bp,对应论文里说的:
- 49bp upstream + 10bp downstream of TSS
NT 是怎么处理的
- 先读取 Hs_EPDnew_006_hg38.bed 里的所有 human promoter。
- 用 promoter_motifs.txt 给每条 promoter 打标签:
- TATA-box = 1 -> TATA promoter
- TATA-box = 0 -> non-TATA promoter
- 再把原始 promoter 区间变成固定长度的 300bp 序列窗口,作为正样本候选。
- 从基因组里找所有“不和任何 promoter 重叠”的 300bp 窗口,作为负样本候选。
- 去掉含 N 的序列。
- 按染色体切分:
- chr20 和 chr21 作为 test
- 其他染色体作为 train
- 对每个任务,把负样本下采样到和正样本一样多。
- 再做随机下采样,控制 benchmark 规模。
三个任务是怎么来的
同一批 promoter 和同一批 non-promoter 负样本,被拆成了 3 个二分类任务:
- Promoter all
- 正样本:所有 promoter
- 负样本:不和任何 promoter 重叠的 300bp 窗口
- Promoter TATA
- 正样本:只有 TATA promoter
- 负样本:不和任何 promoter 重叠的 300bp 窗口
- Promoter no-TATA
- 正样本:只有 non-TATA promoter
- 负样本:不和任何 promoter 重叠的 300bp 窗口
你本地发布版数据也能看出这个关系:
- promoter_all test:792 正样本
- promoter_tata test:106 正样本
- promoter_no_tata test:686 正样本
怎么下载数据集呢?
这里的 CHR / ALL / PRI 是在说:这个注释文件覆盖的是哪一类基因组区域,不是文件格式。
你可以这样理解:
CHR
只包含标准参考染色体
也就是常见的 chr1 到 chr22、chrX、chrY、chrM 这类主染色体。
这是最“干净”、最常用的一版。ALL
包含所有区域
不只是标准染色体,还包括:- scaffolds
- assembly patches
- alternate loci / haplotypes
这一版最全,但也最复杂。
PRI
表示Primary assembly
通常是:- 主染色体
- 再加上一些 primary assembly 里的 scaffolds
它比 CHR 更大,但又没有 ALL 那么杂。
你可以把它们记成范围大小:
- CHR:最精简
- PRI:中间
- ALL:最全
为什么会有这些区别
因为人类参考基因组不只有 chr1~chr22,X,Y 这些主染色体,还可能有:
- 未定位 scaffold
- patch
- alternate haplotype 区域
不同分析需求要的范围不一样,所以 GENCODE 给了多个版本。