问题标签 [vcftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
309 浏览

bash - 如何使用 bcftools 视图根据深度过滤我的 vcf 文件?

我以前使用 GATK 和 vcftools 来调用我的 scRNA-seq 数据中的变体。现在我正在尝试使用 bcftools (v.1.9) 来查看是否得到相同的变体。

到目前为止,我已经完成了以下工作:

这创建了一个我用 htsfile 检查的 bcf 文件,它看起来很好。然后我运行 bcftools 调用:

这给了我一个vcf文件。再次使用 htsfile 检查它给了我我所期望的。简要检查它具有所有预期列的文件:(以下是一个示例行)#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT 20190219_Gli1_5d_A03 1 6226714。TT 37.4152。INDEL;IDV=2;IMF=1;DP=2;VDB=0.1;SGB=-0.453602;MQ0F=0;AC=2;AN=2;DP4=0,0,2,0;MQ=60 GT: PL 1/1:67,6,0

现在我想根据读取深度进行过滤。我只想要 DP=10 或更多的职位。我已经尝试过 vcftools (v0.1.16),但它给了我一个空文件,即使我知道有 DP>10 的位置。这是我运行的 vcftools 代码:

然后我用这段代码尝试了 bcftools 视图:

但是,这给了我错误:

我已经尝试了几个小时,但在任何论坛中都找不到任何答案。非常感谢一些指导!

提前感谢科拉

0 投票
0 回答
77 浏览

consensus - 为什么 vcf2fq 生成的共识序列即使在它们占主导地位时也会错过插入缺失?怎么修?

在对齐序列读数并转换为 BAM 后,我可以看到 9 个碱基缺失的存在。

这个删除区域也被 mpileup 和 bcftools 正确调用

平板电脑中 BAM 文件区域的可视化。 星号是删除。

在共有序列中,这部分是:

在 vcf 文件中,我确实看到这些 indel 突变具有比其他更多数量的删除突变读取。

总共 224 个读数中的 167+29 = 196 个显示删除。除了两端有一个碱基外,其他缺失重叠,占主导地位的比例相似。

有没有一种方法可以使删除的部分被删除(或用---------填充)而不是少数读取中的核苷酸产生共识?

0 投票
0 回答
48 浏览

bioinformatics - 使用 vcftools 过滤 VCF 表后使用 beagle 进行估算

出于某种原因,我无法真正理解只有在使用 vcftools 过滤后才能使用 beagle 估算 VCF 表。过滤非常简单,我已经使用了数百次。这就是我过滤vcf的方式

vcftools --gzvcf ${path}${file}.vcf.gz --remove-indels --max-missing ${maxM} --maf ${maf} --minQ ${minQ} --out ${path}${file}_filterd_minQ${minQ}_maxM${maxM}_maf${maf} --recode #--recode-INFO-all

这就是我运行小猎犬的方式:

java -Xmx144g -jar /home/pogoda/software/BEAGLE/beagle.03Jul19.b33.jar gt=${file} nthreads=36 out=IMPUTED_${file}

我可以毫无问题地估算未过滤的表,因此它必须与过滤有关。知道 vcftools 有什么问题吗?

这是我得到的错误:

0 投票
1 回答
43 浏览

linux - 分别将 file1 的 1,2,5 列与 file2 的 1,2,3 列匹配,输出应该与文件 2 中的行匹配。第二个文件是压缩文件 .gz

文件 1

file2 压缩文件 .gz

输出

我试过了

但它不工作

0 投票
2 回答
50 浏览

linux - 将三列合并为一列(linux、python 或 perl)

我有一个文件 (.tsv),其中包含调用所有样本的变体。我想将前三列合并为一列:

示例: 原文:

文件名= variant.tsv > 我要合并的前三列是:

泳道样品ID 条形码

B31 00-00-NNA-0000 0000

期望的输出:

ID

B31_00-00-NNA-0000_0000

推荐的方法是什么?

0 投票
1 回答
69 浏览

nextflow - 在 Nextflow 中获取两个输出文件时出现问题

大家好!

我正在尝试编写一个小型 Nextflow 管道,该管道在 300 个 vcf 中运行 vcftools 命令。该管道接受四个输入:vcf、pop1、pop2 和一个 .txt 文件,并且必须生成两个输出:一个 .log.weir.fst 和一个 .log.log 文件。当我运行管道时,它只提供 .log.weir.fst 文件,而不提供 .log 文件。

这是我的流程定义:

这是我的工作流程

当我检查管道的工作目录时,我可以看到管道只生成 .log.weir.fst。为了验证我的代码是否错误,我在工作目录中运行了“bash .command.sh”,这实际上生成了两个输出文件。那么,当我运行管道时是否有理由不获取两个输出文件?

我很感激任何帮助。

0 投票
0 回答
16 浏览

vcftools - 使用 bcftools 从 vcf 创建每个样本表

我有一个多样本 vcf 文件,我想在左列中获取一个 ID 表,其中包含它们具有备用等位基因的变体。它应该如下所示:

这是然后读入R

我尝试过以下组合:

bcftools query -f '[%SAMPLE\t] %CHROM:%POS:%REF:%ALT[%GT]\n' 但我不断在同一行上重叠样本 ID,我无法完全弄清楚 sytnax。

您的帮助将不胜感激

0 投票
1 回答
73 浏览

pandas - VCF 文件缺少强制性标题行(“#CHROM...”)

当我要在docker 映像和 os ubuntu 18.04 中使用scikit-allel库读取 VCF 文件时出现错误。它表明

raise RuntimeError('VCF 文件缺少强制标题行 ("#CHROM...")') RuntimeError: VCF 文件缺少强制标题行 ("#CHROM...")

但在 VCF 文件中是格式良好的。

这是我如何申请的代码:

安装的版本:Python 3.6.9 Numpy 1.19.5 pandas 1.1.5 scikit-allel 1.3.5

0 投票
1 回答
31 浏览

variant - 您应该在哪里使用 conda 将缓存用于 ensembl-vep

我已经在 conda 中安装了 vep,如下所示:

然后我像这样安装了人类缓存:

但是当我尝试运行 vep 时出现错误:

难道我做错了什么??

0 投票
1 回答
25 浏览

variant - 如何在 conda 中运行 ensembl-vep

我是这样安装的:

然后像这样安装人类缓存:

但我无法使用任何命令运行它,例如

这给出了有关下载缓存的错误消息:

或者这个:

这给出了错误:

我想没有人能指出我正确的方向吗?