“vcf-variant-call-format”的相关标签问题

0 投票

1 回答

3522 浏览

gzip - 有没有办法将 vcf.gz 文件直接转换为 vcf.bgz 文件？

我不想先解压缩 vcf.gz 文件，因为它是一个大文件，我的笔记本电脑没有空间存放它。我试着做：

gunzip -c file.vcf.gz > bgzip -c > file.vcf.bgz

但它没有用。想法？

2017-10-03T20:01:59.570

0 投票

3 回答

789 浏览

bash - 解析 VCF 文件的 INFO 字段

请帮我解析一个VCF文件。我正在粘贴一个真实的例子。

输入：

我需要一个输出：

这意味着打印第2,3,4,5列，然后解析最后一列并仅打印CLNSIG和CLNDBN。问题是，这些值并不总是处于相同的位置。

我的尝试是：

...然后我不知道如何获得CLNSIG和CLNDBN。

谢谢你的任何想法。

bash awk sed bioinformatics vcf-variant-call-format

2017-10-08T14:47:48.243

0 投票

1 回答

154 浏览

bioinformatics - snakemake：在另一个规则上以错误模式处理规则连接

我需要在同一个蛇文件中运行两个规则（gatk_Mutect2和）。gatk_IndelRealigner

如果将这些规则放在不同的蛇文件中，我可以毫无错误地运行它们。

我使用两个输入函数（get_files_somatic和get_files）。两者都使用案例名称作为字典键。（每个案例都有一个正常的）。当我将这些规则放在同一个蛇文件中时，snakemake 会尝试在gatk_IndelRealigner.

我的问题是：如何管理两条规则的歧义？我的意思是我希望snakemake 不要试图将这两个规则联系起来。

bioinformatics snakemake vcf-variant-call-format bam

2017-11-09T21:47:30.513

0 投票

1 回答

40 浏览

python - 如何选择要处理的多个文件夹和文件

当前脚本在同一文件夹中的两个文件上运行。每次我必须运行不同的情况时，我必须用正确的文件夹（即 11221 而不是 11220）和该文件夹中的正确文件名（即 11221_S1 而不是 11220_S1）替换脚本中的路径并再次运行脚本.

有没有办法让脚本选择 /mypath 中包含的所有文件夹，并在该文件夹中选择脚本运行所需的两个文件？所以我不需要手动替换每个文件的脚本中的文本。

提前谢谢你卢卡

python vcf-variant-call-format

2017-11-27T13:52:30.640

0 投票

2 回答

57 浏览

python - 打印返回值的 Python 可以是列表或 int

我正在使用 pyVCF 读取 VCF 文件，返回的sample['AD']可以是 a listlike[8, 14]或 an intlike 5。

如果我使用','.join(map(str,sample['AD']))，它将停止int返回为“TypeError：'int' object is not iterable”。

在这两种情况下，我如何编写它来打印它？

回复评论：

只是普通的代码。但是 VCF 文件带有两种AD.

python types vcf-variant-call-format

2017-12-13T13:42:02.103

0 投票

0 回答

347 浏览

bash - Bash for 循环遍历匹配模式的文件并生成具有相同模式的输出文件

我试图根据每个染色体中的一组 SNP 生成更小的 VCF 文件。我使用此语法手动生成了前 3 个

然后我尝试在 bash 循环中为 4 到 17 号染色体运行相同的函数。

我尝试了几种不同的方法，但只有一种有效，而不是我想要的方式。

首先我试过

但是当运行时只输出一个名为 chr.vcf 的文件

然后我尝试了

但得到了完全相同的结果。

然后我尝试了这个并意识到我要走得更远

我终于尝试了这个：

并且它有效，但它以 chr4.snps.vcf 的形式生成了文件，而不是我想要的 chr4SNPS.vcf

bash loops file bioinformatics vcf-variant-call-format

2017-12-18T06:32:21.083

0 投票

0 回答

91 浏览

java - 如何使用 GNU 并行工具为一批 VCF 文件运行 SNPEff jar？

如何使用 GNU 并行工具为一批 VCF 文件（300 个项目）运行 SNPEff jar？需要一个代码示例。只找到一个与我的问题.s.GNU parallel, execution of commands from file a time a time类似的例子。谢谢。

java bioinformatics gnu gnu-parallel vcf-variant-call-format

2018-02-05T12:23:42.713

0 投票

3 回答

241 浏览

regex - 从 vcf 文件中提取字符串

我需要从几万行文件中的RS=368138379以下行中提取字符串。vcf我想知道我们如何使用grep -o ""正则表达式来快速提取它？

确实非常感谢。

regex grep vcf-variant-call-format

2018-02-26T22:53:46.780

0 投票

1 回答

1572 浏览

python - Snakemake：为具有多个子组的一个输出使用多个输入的规则

我有一个工作管道，用于下载、对齐和执行公共测序数据的变体调用。问题是它目前只能在每个样本的基础上工作（即样本作为每个单独的测序实验）。如果我想对一组实验（例如样本的生物和/或技术复制）执行变体调用，它不起作用。我试图解决它，但我无法让它工作。

这是对齐规则的简化：

对于变体调用也是如此：

这很好用，因为.vcf每个对齐的文件都会生成一个.bam文件。但我想做的是.vcf从任意数量的文件生成单个.bam文件。我有一个pandas数据框，其中包含所有sample名称及其对应的group. 我基本上想将output第二条规则的更改为'{group}/variants/{group}.vcf'，但我所做的一切都以某种方式失败了。

我的想法是为规则提供所有按组对齐的.bam文件作为输入，然后只给它运行它们所在目录的脚本。问题是我找不到以这种每组方式提供输入的方法：要么我给每个样本（作为工作管道），要么我给.bam每个组变体调用的所有文件，不管是哪个组他们实际上属于。我不能只使用通配符，因为{sample}最后一个输出中不存在通配符。我也尝试使用函数作为输入，但这会导致与上述相同的问题。

问题的症结似乎是分组的层次：如果我想对.bam整个数据集中所有对齐的文件执行变体调用，那可能会很好，给出我上面提到的问题。问题来自整个数据集的子组：

关于如何解决这个问题的任何想法？

python bioinformatics snakemake vcf-variant-call-format

2018-02-27T12:35:09.627

0 投票

2 回答

69 浏览

bash - Bash：文本处理命令

我已经能够用一个命令行做我想做的事，但我知道必须有一些更优雅的方式来做我正在做的事情。请告诉我您的方法是什么...我想学习更复杂的处理文本文件的方法...

原始文件是一个vcf文件，看起来像这样

我的目标是生成一个如下所示的文件：

我做了以下步骤来实现最终目标，但它太麻烦而且太丑陋了......

我能够得到我需要的东西，但是.. gahhh，这太丑了。请告诉我人们做了什么来提高他们的文本处理技能以及如何改进这样的事情......谢谢！

bash sed paste cut vcf-variant-call-format

2018-03-07T20:54:04.507

问题标签 [vcf-variant-call-format]

Reference