我想从 RNAseq 下载 fastq 原始文件以获取基因表达值。但 GEO 仅提供 .bed.gz 和 .wig.gz 格式。我可以做些什么来获得 RPKM 值?非常感谢!
问问题
728 次
1 回答
0
为了计算RPKM,您需要(映射)包含在 BAM/SAM 甚至 CRAM 文件中的原始读取。Wiggle、BED 及其衍生产品如 bigWiggle 是仅包含覆盖范围(主要用于绘图)的压缩版本,也就是说,它们丢失了计数所需的读取信息,因此计算 RPKM(或这种方式的 FPKM/TPM)。
标准方法是从 bam 文件开始,提取感兴趣区域的读取计数并计算 RPKM 等。那里有很多管道,例如this。
如果没有 Bam 文件,GEO 通常至少有原始的 fastq 文件(或可以转换为 fastq 的 sra 文件)作为映射获得 bam 文件的基础。还可以看看 ArrayExpress,他们可以拥有该项目的原始文件,因为它正在镜像 GEO。
也许作为警告,如果您打算进行差异表达分析,您需要从原始计数开始,而不是 RPKM 值。
于 2016-09-30T15:57:40.933 回答