NT的启动子数据集说明（来源于GENCODE）-洪萨配资

来源于：https://www.gencodegenes.org/human/release_44.html

怎么划分的？

原始数据是什么
它用了两个官方文件：

promoter 坐标文件
Hs_EPDnew_006_hg38.bed
https://epd.expasy.org/ftp/epdnew/H_sapiens/006/Hs_EPDnew_006_hg38.bed
motif 注释文件
promoter_motifs.txt
https://epd.expasy.org/ftp/epdnew/H_sapiens/006/db/promoter_motifs.txt

其中 bed 文件里的每一条 promoter，长度都是 60bp，对应论文里说的：

49bp upstream + 10bp downstream of TSS

NT 是怎么处理的

先读取 Hs_EPDnew_006_hg38.bed 里的所有 human promoter。
用 promoter_motifs.txt 给每条 promoter 打标签：
- TATA-box = 1 -> TATA promoter
- TATA-box = 0 -> non-TATA promoter
再把原始 promoter 区间变成固定长度的 300bp 序列窗口，作为正样本候选。
从基因组里找所有“不和任何 promoter 重叠”的 300bp 窗口，作为负样本候选。
去掉含 N 的序列。
按染色体切分：
- chr20 和 chr21 作为 test
- 其他染色体作为 train
对每个任务，把负样本下采样到和正样本一样多。
再做随机下采样，控制 benchmark 规模。

三个任务是怎么来的
同一批 promoter 和同一批 non-promoter 负样本，被拆成了 3 个二分类任务：

Promoter all
- 正样本：所有 promoter
- 负样本：不和任何 promoter 重叠的 300bp 窗口
Promoter TATA
- 正样本：只有 TATA promoter
- 负样本：不和任何 promoter 重叠的 300bp 窗口
Promoter no-TATA
- 正样本：只有 non-TATA promoter
- 负样本：不和任何 promoter 重叠的 300bp 窗口

你本地发布版数据也能看出这个关系：

promoter_all test：792 正样本
promoter_tata test：106 正样本
promoter_no_tata test：686 正样本

怎么下载数据集呢？

这里的 CHR / ALL / PRI 是在说：这个注释文件覆盖的是哪一类基因组区域，不是文件格式。

你可以这样理解：

CHR
只包含标准参考染色体
也就是常见的 chr1 到 chr22、chrX、chrY、chrM 这类主染色体。
这是最“干净”、最常用的一版。
ALL
包含所有区域
不只是标准染色体，还包括：
- scaffolds
- assembly patches
- alternate loci / haplotypes
  这一版最全，但也最复杂。
PRI
表示Primary assembly
通常是：
- 主染色体
- 再加上一些 primary assembly 里的 scaffolds
  它比 CHR 更大，但又没有 ALL 那么杂。

你可以把它们记成范围大小：

CHR：最精简
PRI：中间
ALL：最全

为什么会有这些区别
因为人类参考基因组不只有 chr1~chr22,X,Y 这些主染色体，还可能有：

未定位 scaffold
patch
alternate haplotype 区域

不同分析需求要的范围不一样，所以 GENCODE 给了多个版本。

基于VMD-KPCA-PINN多变量时序预测 (多输入单输出) 基于变分模态分解-核主成分分析-物理信息神经网络的多变量时序预测 matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长毕业设计辅导、数学建模、数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室👇 关注我领取海量matlab电子书和…

李华

手把手教你用Verilog实现I2C控制器（400KHz，含inout端口处理与状态机详解）

从零构建400KHz I2C主控制器：Verilog实战指南与AT24C02交互全解析在FPGA和数字IC开发领域，I2C总线因其简洁的两线制设计和多主多从架构，成为芯片间通信的经典选择。本文将带您深入Verilog实现细节，从协议原理到状态机设计&#…

李华

告别迷茫：从AudioFlinger的openOutput到MixerThread创建，一次搞懂Android音频数据流的起点

告别迷茫：从AudioFlinger的openOutput到MixerThread创建，一次搞懂Android音频数据流的起点在Android音频系统的开发调试过程中，最令人困惑的问题之一莫过于"音频数据最终由哪个线程负责混音和播放"。这个看似简单的问题背后&#…

李华

告别Keil破解！用STM32CubeIDE + HAL库点亮你的第一颗LED（STM32F103C8T6保姆级教程）

从Keil到STM32CubeIDE：零成本玩转STM32F103C8T6的LED控制第一次接触STM32开发时，我和大多数初学者一样，被各种开发工具和复杂的配置流程搞得晕头转向。Keil的破解过程更是让人望而却步——不仅要面对道德困境，还要担心软件突然停…

李华

如何在Windows上使用SMUDebugTool深度调试AMD Ryzen处理器硬件参数

如何在Windows上使用SMUDebugTool深度调试AMD Ryzen处理器硬件参数【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址: https://g…

李华

GESP2024年3月认证C++三级( 第三部分编程题（2、完全平方数）

一、🏰 故事开始：魔法数字宝箱小杨同学有一排数字宝石：1 4 3 3 5他想从里面任选两个宝石，看看它们相加后，是不是一种神奇数字：✨ 完全平方数二、🎯 什么叫完全平方数？就是某个整数自…

李华