问题标签 [bcftools]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
62 浏览

bioinformatics - 转换为 BCF 之前的 vcf 文件修改

我正在将新的 vcf 文件添加到以前制作的 bcf 文件中,其中 VCF 中的 ID 字段已设置为CHR:POS:POS:REF:ALT

如何将 VCF 中的 ID 字段设置为CHR:POS:POS:REF:ALT

0 投票
2 回答
788 浏览

linux - 是否可以部分解压缩 .vcf 文件?

我有一个约 300 GB 的压缩 vcf 文件 (.vcf.gz),其中包含大约 700 只狗的基因组。我只对其中的几只狗感兴趣,目前我没有足够的空间来解压缩整个文件,尽管我正在准备一台计算机来执行此操作。是否可以仅解压缩文件的一部分以开始测试我的脚本?

我正在尝试在样本子集的某个位置找到特定的 SNP。我尝试使用bcftools无济于事:(如果有人能找出问题所在,我也会非常感激。我为输出创建了一个空文件(722g.990.SNP.INDEL.chrAll.vcf.bgz)但是它返回以下错误)

无法识别输出类型“722g.990.SNP.INDEL.chrAll.vcf.bgz”

我打算尝试awk,但需要先解压缩文件。是否可以部分解压缩它以便我可以试试这个?

0 投票
1 回答
309 浏览

loops - 使用 bcftools 和 awk 在多种文件类型上运行循环以细分文件

亲爱的堆栈溢出社区,

我有 100 个 .VCF 文件(一种 txt 文件)。在“ID”列中有不同的结构变体调用:

(连同一个数字,例如 MantaINS:00:13:467、Canvas:Gain:594:31:23 等)

文件看起来像这样(但更大,每个文件有数千个条目)

每个文件都在一个单独的文件夹中,我为所有 100 个 vcfs 生成了一个文件路径的 txt 文件。该文件如下所示(仅前 4 个):

我想按在 ID 列中找到的结构变体类型对文件进行细分,因此对于每个输入 vcf 文件,我得到 8 个按 ID 类型划分的输出文件,例如对于 Manta_INS 我想要一个只有以下行的 .txt 文件取自上面的例子:

2 14477084 MantaINS:88:22:00:3 12 PASS IMPRECISE;SVTYPE=DEL END=14477381 SVLEN=-297;MEINFO=AluYa5,5,307,+;CIPOS=-22,18;CIEND=-12,32 GT:GQ 0/1:12

即对于每个输入 vcf,我希望输出为 8 个细分文件。

(例如 person 1.vcf -> person1_MantaINS.txt、person1_MantaDEL.txt、person1_MantaINV.txt 等)

在我运行的单个 VCF 文件上:

效果很好(除了其中有冒号的 Canvas 调用)。但是,我想输入一个包含 100 个文件的列表来运行相同的循环。

我累了:

这给了我一条错误消息:对于我的任何文件类型,并行内“没有这样的文件或目录”。

我正在通过远程终端处理 HPC。

您的帮助将不胜感激。

非常感谢

0 投票
2 回答
132 浏览

bash - 如果程序打印了某些消息,如何在bash中继续while循环?

我正在使用一些遵循以下基本模式的软件运行 bash 脚本。

对于某些示例,会打印此消息:“站点 Pf3D7_02_v3:274217 与另一个变体重叠,正在跳过...”

此消息不会停止软件运行,但会使结果为假。因此,如果给出消息,我想停止软件并继续 while 循环移动到下一个示例。samples.txt 中有很多示例,这就是我不能手动执行此操作的原因。一种表示消息用于哪个样本的方法也会有所帮助。因为它是我只是得到该消息的许多行,而不知道该消息是针对哪个循环给出的。

有没有可能帮助解决这个问题?

仅供参考,我正在使用的程序称为 bcftools 共识。如果我需要提供更多信息,请告诉我。

编辑:添加了“> output.txt”——意识到我已经把它剥离得太多了

编辑 2:这是使用下面 chepner 建议的完整脚本。抱歉有点辛苦:

0 投票
1 回答
189 浏览

loops - 使用带有 bcftools 的 for 循环

我有一个包含 900 个文件的文件夹,如下所示:

我试图用循环索引每个文件:

所以我最终会得到以下结果:

但是,当我运行上述循环时,我只得到第一个 chromosme 条目的索引文件,其余部分被忽略(即一个 chr1_ _ .vcf.gz.tbi 文件仅被索引,其余部分被忽略,然后是第一个 chr2 文件和第一个 chr3 文件等等)。

帮助将不胜感激。

祝一切顺利

0 投票
1 回答
550 浏览

anaconda - 无法使用 conda 安装 bcftools-gtc2vcf-plugin

我已经按照https://bioconda.github.io/user/install.html#set-up-channels的说明安装了 bioconda 。然后我尝试了

他们都安装得很好。但是,当我尝试

或者

按照https://bioconda.github.io/recipes/bcftools-gtc2vcf-plugin/README.html的指示,我收到如下错误:

任何帮助将不胜感激。

提前致谢!

0 投票
1 回答
82 浏览

bioinformatics - 推荐用于阅读和操作 BAM 和 VCF 文件的语言?

我通常是 C# / .net 开发人员,但一个新项目将使用下一代测序 BAM 和 VCF 文件。我需要阅读这些文件,进行一些更改,然后保存它们。据我所知,现有的.net 库用于处理这些文件的方式并不多。

该领域通常使用哪些编程语言,并且有支持这些文件的库?

0 投票
2 回答
788 浏览

snakemake - 在snakemake中组合shell命令行

我想将两个命令行组合为一个,以避免中间文件。

我收到无效的语法错误。如果您能解释如何在snakemake 中组合多个shell 行,我将不胜感激。

0 投票
1 回答
209 浏览

plugins - 如何在 bcftools 中使用插件命令?

我的目标是使用 bcftools 来检查我的数据集(vcf 文件)中的参考等位基因是否与使用 fixref 插件的参考基因组(fasta 文件)匹配。

在命令行上工作,我首先设置了以下环境:

对于不匹配的测试数据集,建议使用以下代码:

当我使用自己的文件运行此代码时(请注意,我的数据是 .vcf,而不是 .bcf),我收到以下错误:

如果我只是输入:

我得到了我可以使用的仅有的 5 个命令(view、index、cat、ld、ldpair)的列表。所以虽然我已经设置了环境,但它是否需要以某种方式激活?我需要通过 bash 脚本运行我的命令吗?

0 投票
0 回答
151 浏览

java - 使用 SnpSift,只有 0.52% 的 VCF 被 dbsnp 数据库注释

我使用以下命令从 cram 生成了一个坐标排序的 vcf 文件:

samtools 排序 -@ 10 -o /output/sorted.cram

samtools 索引 -@ 10 /output/sorted.cram

bcftools mpileup -f reference.fa -r chrz:zzzz-zzzzx -a INFO/AD,FORMAT/DP --threads 10 -O v -o /output/mpileup.vcf /input/sorted.cram

我正在尝试用 snpsift 注释坐标排序的 vcf 文件(参考基因组 Hg38)。我正在使用以下命令:

java -jar SnpSift.jar 注释 -v /dbsnp/file.vcf.gz /input/mpileup.vcf > /output/annotated.vcf

我在这里下载了 dbsnp vcf 文件和标签索引:ftp: //ftp.ncbi.nih.gov/snp/organisms/human_9606_b151_GRCh38p7/VCF/GATK/

但是,只有 0.52% 的 vcf 被注释了……这看起来很奇怪。此外,当我尝试使用 ensemble Web 界面 ( https://useast.ensembl.org/Multi/Tools/VEP?db=core ) 来注释我的 vcf 时,我收到错误“输入无效”。这让我相信我的 vcf 文件有问题?我只是想注释一个基因,只有0.52%的基因被dbsnp注释是正常的吗?提前感谢您的任何帮助!


更新!如果使用 bcftools mpileup | bcftools 调用 --variants-only 然后 ensembl 工具工作。此外,这人为地增加了注释的 SNP 的百分比。