问题标签 [vcftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bash - 如何使用 bcftools 视图根据深度过滤我的 vcf 文件?
我以前使用 GATK 和 vcftools 来调用我的 scRNA-seq 数据中的变体。现在我正在尝试使用 bcftools (v.1.9) 来查看是否得到相同的变体。
到目前为止,我已经完成了以下工作:
这创建了一个我用 htsfile 检查的 bcf 文件,它看起来很好。然后我运行 bcftools 调用:
这给了我一个vcf文件。再次使用 htsfile 检查它给了我我所期望的。简要检查它具有所有预期列的文件:(以下是一个示例行)#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT 20190219_Gli1_5d_A03 1 6226714。TT 37.4152。INDEL;IDV=2;IMF=1;DP=2;VDB=0.1;SGB=-0.453602;MQ0F=0;AC=2;AN=2;DP4=0,0,2,0;MQ=60 GT: PL 1/1:67,6,0
现在我想根据读取深度进行过滤。我只想要 DP=10 或更多的职位。我已经尝试过 vcftools (v0.1.16),但它给了我一个空文件,即使我知道有 DP>10 的位置。这是我运行的 vcftools 代码:
然后我用这段代码尝试了 bcftools 视图:
但是,这给了我错误:
我已经尝试了几个小时,但在任何论坛中都找不到任何答案。非常感谢一些指导!
提前感谢科拉
bioinformatics - 使用 vcftools 过滤 VCF 表后使用 beagle 进行估算
出于某种原因,我无法真正理解只有在使用 vcftools 过滤后才能使用 beagle 估算 VCF 表。过滤非常简单,我已经使用了数百次。这就是我过滤vcf的方式
vcftools --gzvcf ${path}${file}.vcf.gz --remove-indels --max-missing ${maxM} --maf ${maf} --minQ ${minQ} --out ${path}${file}_filterd_minQ${minQ}_maxM${maxM}_maf${maf} --recode #--recode-INFO-all
这就是我运行小猎犬的方式:
java -Xmx144g -jar /home/pogoda/software/BEAGLE/beagle.03Jul19.b33.jar gt=${file} nthreads=36 out=IMPUTED_${file}
我可以毫无问题地估算未过滤的表,因此它必须与过滤有关。知道 vcftools 有什么问题吗?
这是我得到的错误:
linux - 分别将 file1 的 1,2,5 列与 file2 的 1,2,3 列匹配,输出应该与文件 2 中的行匹配。第二个文件是压缩文件 .gz
文件 1
file2 压缩文件 .gz
输出
我试过了
但它不工作
linux - 将三列合并为一列(linux、python 或 perl)
我有一个文件 (.tsv),其中包含调用所有样本的变体。我想将前三列合并为一列:
示例: 原文:
文件名= variant.tsv > 我要合并的前三列是:
泳道样品ID 条形码
B31 00-00-NNA-0000 0000
期望的输出:
ID
B31_00-00-NNA-0000_0000
推荐的方法是什么?
nextflow - 在 Nextflow 中获取两个输出文件时出现问题
大家好!
我正在尝试编写一个小型 Nextflow 管道,该管道在 300 个 vcf 中运行 vcftools 命令。该管道接受四个输入:vcf、pop1、pop2 和一个 .txt 文件,并且必须生成两个输出:一个 .log.weir.fst 和一个 .log.log 文件。当我运行管道时,它只提供 .log.weir.fst 文件,而不提供 .log 文件。
这是我的流程定义:
这是我的工作流程
当我检查管道的工作目录时,我可以看到管道只生成 .log.weir.fst。为了验证我的代码是否错误,我在工作目录中运行了“bash .command.sh”,这实际上生成了两个输出文件。那么,当我运行管道时是否有理由不获取两个输出文件?
我很感激任何帮助。
vcftools - 使用 bcftools 从 vcf 创建每个样本表
我有一个多样本 vcf 文件,我想在左列中获取一个 ID 表,其中包含它们具有备用等位基因的变体。它应该如下所示:
这是然后读入R
我尝试过以下组合:
bcftools query -f '[%SAMPLE\t] %CHROM:%POS:%REF:%ALT[%GT]\n'
但我不断在同一行上重叠样本 ID,我无法完全弄清楚 sytnax。
您的帮助将不胜感激
pandas - VCF 文件缺少强制性标题行(“#CHROM...”)
当我要在docker 映像和 os ubuntu 18.04 中使用scikit-allel库读取 VCF 文件时出现错误。它表明
raise RuntimeError('VCF 文件缺少强制标题行 ("#CHROM...")') RuntimeError: VCF 文件缺少强制标题行 ("#CHROM...")
但在 VCF 文件中是格式良好的。
这是我如何申请的代码:
安装的版本:Python 3.6.9 Numpy 1.19.5 pandas 1.1.5 scikit-allel 1.3.5
variant - 您应该在哪里使用 conda 将缓存用于 ensembl-vep
我已经在 conda 中安装了 vep,如下所示:
然后我像这样安装了人类缓存:
但是当我尝试运行 vep 时出现错误:
难道我做错了什么??
variant - 如何在 conda 中运行 ensembl-vep
我是这样安装的:
然后像这样安装人类缓存:
但我无法使用任何命令运行它,例如
这给出了有关下载缓存的错误消息:
或者这个:
这给出了错误:
我想没有人能指出我正确的方向吗?