因此,原则上标准化原始计数 RNAseq 文件非常简单......
但是我的原始计数文件不伴随基因长度。
我如何/从哪里可以导入基因长度并将其与集合 ID 匹配?我正在使用来自 cpm 值的 EdgeR rpkm,它返回
x_rpkm <- rpkm(x_cpm)
“rpkm.default(x_cpm) 中的错误:缺少参数“gene.length”,没有默认值”
谢谢
在计算每个基因的读数时,您应该使用“.gtf”或“.gff”文件。首先使用 GenomicFeatures 库将该文件加载到 R 中。
library("GenomicFeatures")
gtf_txdb <- makeTxDbFromGFF("example.gtf")
然后再次从 GenomicFeatures 库中使用genes 函数将导入的gtf 中的基因列表作为GRanges 对象获取。
gene_list <- genes(gtf_txdb)
如果您随后将基因列表转换为 data.frame,您将获得每个基因的一堆信息,包括长度。
gene_list <- as.data.frame(gene_list)