1

目前我正在使用signeR允许您创建体细胞突变特征的包。首先,我想从vignette重现他们的结果。

如您所见,输入数据文件有两个选项,.vcf并且先前已预处理 mutation counts file,这是通过它们的genCountMatrixFromVcf()功能获得的简单数据框..实际上来自.vcf...

当然,您可以在这里找到一些示例.vcf文件和这个突变计数矩阵,以供进一步分析。

在小插图中,他们使用(如我所读)这些数据:SUBSTITUTIONS_13Apr2012_snz.txt。所以我决定.vcf从这个数据框创建一个文件,并完成小插图的所有步骤。

所以我做了几个简单的步骤来构建.vcf上述数据:

dat <- read.table('SUBSTITUTIONS_13Apr2012_snz.txt', header = T, sep = '\t')
t <- dat[,c(3,4,6,7)]
t$chr <- paste("chr", t$chr, sep="")
colnames(t) <- c('chr','pos1','ref','alt')
t$ID <- rep('.',nrow(t)) 
t$QUAL <- rep('.',nrow(t))
t$FILTER <- rep('.',nrow(t))         
t$INFO <- rep('.',nrow(t))
t$FORMAT <- rep('.',nrow(t))
t$Sample <- rep('.',nrow(t))
t <- t[, c('chr', 'pos1', 'ID', 'ref', 'alt', 'QUAL',   'FILTER',   'INFO')]
colnames(t) <- c('#CHROM',  'POS',  'ID',   'REF',  'ALT',  'QUAL', 'FILTER',   'INFO')

结果我们有:

> head(t)
  #CHROM     POS ID REF ALT QUAL FILTER INFO
1   chr1  809687  .   G   C    .      .    .
2   chr1  819245  .   G   T    .      .    .
3   chr1 1911011  .   C   G    .      .    .
4   chr1 2112413  .   T   C    .      .    .
5   chr1 2927666  .   A   G    .      .    .
6   chr1 3359791  .   C   T    .      .    .

文件的所有必填列.vcf都存在。我以前制作过这种类型的文件,比我使用的readVcfAsVRanges()一切都好。

然而,在signeR包装中存在一些问题......因为如果我不创建这个突变计数矩阵,我会遇到一个错误:

vcfobj <- readVcf("21_breast.vcf", "hg19")
mut <- genCountMatrixFromVcf(BSgenome.Hsapiens.UCSC.hg19, vcfobj)
Error in normalizeDoubleBracketSubscript(i, x, exact = exact, error.if.nomatch = FALSE) : 
  subscript is out of bounds

所以我试图找出我的.vcf文件与“工作”文件相比有什么问题......

我的文件:

vcfobj
class: CollapsedVCF 
dim: 183916 0 
rowRanges(vcf):
  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
  DataFrame with 0 columns: 
geno(vcf):
  SimpleList of length 0:

他们的“工作”示例文件(实际上在运行genCountMatrixFromVcf()功能之后也有错误但不同......此时并不重要)。

example <- readVcf("example.vcf", "hg19")
example
class: CollapsedVCF 
dim: 44 7 
rowRanges(vcf):
  GRanges with 5 metadata columns: paramRangeID, REF, ALT, QUAL, FILTER
info(vcf):
  DataFrame with 1 column: INFO
  Fields with no header: INFO 
geno(vcf):
  SimpleList of length 5: GT, AD, DP, GQ, PL
geno(header(vcf)):
      Number Type    Description                                                                           
   GT 1      String  Genotype                                                                              
   AD .      Integer Allelic depths for the ref and alt alleles in the order listed                        
   DP 1      Integer Approximate read depth (reads with MQ=255 or with bad mates are filtered)             
   GQ 1      Integer Genotype Quality                                                                      
   PL G      Integer Normalized, Phred-scaled likelihoods for genotypes as defined in the VCF specification

正如你所看到的dim那样,我在0那里的价值是不同的,所以这可能是问题所在。所以我想问你如何修复我的.vcf文件?

4

0 回答 0