目前我正在使用signeR
允许您创建体细胞突变特征的包。首先,我想从vignette重现他们的结果。
如您所见,输入数据文件有两个选项,.vcf
并且先前已预处理 mutation counts file
,这是通过它们的genCountMatrixFromVcf()
功能获得的简单数据框..实际上来自.vcf...
当然,您可以在这里找到一些示例.vcf
文件和这个突变计数矩阵,以供进一步分析。
在小插图中,他们使用(如我所读)这些数据:SUBSTITUTIONS_13Apr2012_snz.txt。所以我决定.vcf
从这个数据框创建一个文件,并完成小插图的所有步骤。
所以我做了几个简单的步骤来构建.vcf
上述数据:
dat <- read.table('SUBSTITUTIONS_13Apr2012_snz.txt', header = T, sep = '\t')
t <- dat[,c(3,4,6,7)]
t$chr <- paste("chr", t$chr, sep="")
colnames(t) <- c('chr','pos1','ref','alt')
t$ID <- rep('.',nrow(t))
t$QUAL <- rep('.',nrow(t))
t$FILTER <- rep('.',nrow(t))
t$INFO <- rep('.',nrow(t))
t$FORMAT <- rep('.',nrow(t))
t$Sample <- rep('.',nrow(t))
t <- t[, c('chr', 'pos1', 'ID', 'ref', 'alt', 'QUAL', 'FILTER', 'INFO')]
colnames(t) <- c('#CHROM', 'POS', 'ID', 'REF', 'ALT', 'QUAL', 'FILTER', 'INFO')
结果我们有:
> head(t)
#CHROM POS ID REF ALT QUAL FILTER INFO
1 chr1 809687 . G C . . .
2 chr1 819245 . G T . . .
3 chr1 1911011 . C G . . .
4 chr1 2112413 . T C . . .
5 chr1 2927666 . A G . . .
6 chr1 3359791 . C T . . .
文件的所有必填列.vcf
都存在。我以前制作过这种类型的文件,比我使用的readVcfAsVRanges()
一切都好。
然而,在signeR
包装中存在一些问题......因为如果我不创建这个突变计数矩阵,我会遇到一个错误:
vcfobj <- readVcf("21_breast.vcf", "hg19")
mut <- genCountMatrixFromVcf(BSgenome.Hsapiens.UCSC.hg19, vcfobj)
Error in normalizeDoubleBracketSubscript(i, x, exact = exact, error.if.nomatch = FALSE) :
subscript is out of bounds
所以我试图找出我的.vcf
文件与“工作”文件相比有什么问题......
我的文件:
vcfobj
class: CollapsedVCF
dim: 183916 0
rowRanges(vcf):
GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
DataFrame with 0 columns:
geno(vcf):
SimpleList of length 0:
他们的“工作”示例文件(实际上在运行genCountMatrixFromVcf()
功能之后也有错误但不同......此时并不重要)。
example <- readVcf("example.vcf", "hg19")
example
class: CollapsedVCF
dim: 44 7
rowRanges(vcf):
GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
DataFrame with 1 column: INFO
Fields with no header: INFO
geno(vcf):
SimpleList of length 5: GT, AD, DP, GQ, PL
geno(header(vcf)):
Number Type Description
GT 1 String Genotype
AD . Integer Allelic depths for the ref and alt alleles in the order listed
DP 1 Integer Approximate read depth (reads with MQ=255 or with bad mates are filtered)
GQ 1 Integer Genotype Quality
PL G Integer Normalized, Phred-scaled likelihoods for genotypes as defined in the VCF specification
正如你所看到的dim
那样,我在0
那里的价值是不同的,所以这可能是问题所在。所以我想问你如何修复我的.vcf
文件?