“vcf-variant-call-format”的相关标签问题

0 投票

2 回答

109 浏览

perl - Linkdatagen 中的错误：在连接 (.) 或字符串中使用了未启动的值 $chr

嗨，我正在尝试使用 linkdatagen，这是一个基于 perl 的工具。它需要一个 vcf 文件（使用 SAMtools 的 mpileup）和一个 hapmap 注释文件（已提供）。我已按照说明进行操作，但在使用提供的 perl 脚本时，出现此错误。我使用的代码是：

Use of uninitiated value $chr in concatenation (.) or string at vcf2linkdatagentest.pl line 487, <IN> line 1....它一直在继续.. 我已经给作者发了邮件，还没有收到他们的消息。有人可以帮我吗？我究竟做错了什么？

perl 脚本是： http ://bioinf.wehi.edu.au/software/linkdatagen/vcf2linkdatagen.pl

HapMap 文件可以从下面提到的网站下载。
http://bioinf.wehi.edu.au/software/linkdatagen/

非常感谢

2016-03-14T12:31:51.707

0 投票

1 回答

444 浏览

r - 使用循环和 if else 语句有条件地处理（bgzip、tabix）文件

我有一些.vcf文件。我从我的目录中选择了这些文件，并希望将它们转换为其他两种格式。

我在这里使用if和有点困惑else if。我想这样做：如果该文件没有文件.bgz，我想将其转换为保留原始文件的文件。[i].vcf.bgz

如果已经有.bgz文件，但没有.bgz.tbi该文件的[i]文件.bgz，那么我想将 .bgz文件转换为文件，保留从文件中获得.bgz.tbi的原始文件。.bgz.vcf

有人可以帮我完成这个循环吗？它适用于 if 条件，但不知道如何从那里开始。

r if-statement bioinformatics vcf-variant-call-format

2016-04-21T11:02:00.937

0 投票

2 回答

629 浏览

r - R：（Pegas）单倍型问题-（错误：'h'必须属于'haplotype'类）

我最近开始研究单倍型数据，我正在处理来自 1000 个基因组项目的数据，并尝试使用 R 中的 Pegas 包对其进行操作。到目前为止，我已经走到了这一步：

我想绘制一个单倍型网，但它不执行它。我收到以下消息：“h”必须属于“单倍型”类

如果我打印出 h 我得到：

它显然分配了 19 个单倍型。数据的呈现方式一定有问题。有什么建议吗？此外，关于 Pegas 以及如何使用 Pegas 操作 VCF 文件的资料也很少。有没有人知道一个很好的资源（网页或书籍）来获取有关如何从 VCF 文件中使用单倍型的信息，它甚至不一定适用于 Pegas，任何 R 库都可以，或者 Python ......真的。

谢谢你的帮助，彼得

r bioinformatics vcf-variant-call-format

2016-05-03T22:56:41.757

0 投票

0 回答

55 浏览

r - 变体位置有时被子集的大型 VCF 文件中的 ID 替换？

我有一个大型 VCF 文件，我想从中提取某些列和信息，并将其与变体位置匹配。我以为我有这个工作，但是对于某些变体而不是相应的变体位置，我被赋予了 ID？

我的代码如下所示：

结果如下所示：

我希望结果如下所示：

关于这里发生了什么以及如何解决它的任何想法？

如果有一种方法可以使用 CHROM 和 position 字段附加变体位置，我也会很高兴，但我无法从这些字段的研究数据中请求它们，因为它们是用于创建变体位置的 GRange 的基本字段。

r bioinformatics vcf-variant-call-format

2016-05-27T05:16:46.270

0 投票

1 回答

100 浏览

perl - 在两个大的排序文本文件中查找匹配键并比较值（VCF 文件）

我正在寻找一种有效的解决方案来过滤两个数据集。基本上，我只想保留一个文件中没有缺失的行作为它们的键列，并且在两个文件中都没有值“0/0”。

输入数据（对于那些感兴趣的人，我为这个问题简化的基因组 VCF 文件）具有以下特征：

第 1 列和第 2 列一起是按数字排序的唯一标识符
第 3 列以值 0/0、0/1 或 1/1 开头

理想情况下，该脚本将执行以下操作：

遍历 sample1.dat 中的每一行并在 sample2.dat 中查找相同的标识符
如果在 sample2.dat 中找不到来自 sample1.dat 的标识符，则什么也不做
如果两行都包含“0/0”，则什么也不做
如果一行或两行不包含“0/0”，则将这两行写入各自的输出。

输入

样本1.dat

样本2.dat

输出

sample1_out.dat

sample2_out.dat

在这种情况下，不会打印 1-1001，因为它们都具有值“0/0”，并且不会打印 2-1234 和 2-3456，因为它们在两个文件中都不存在。

一些注意事项：

这些文件大约 260GB，但我可以轻松地将它们拆分为多个最大 18GB 的文件（我基本上将它们拆分为染色体）
我机器上的可用内存约为 128GB
第 1 列和第 2 列一起已经按数字顺序排序

任何帮助是极大的赞赏！

perl unix awk bioinformatics vcf-variant-call-format

2016-07-01T12:19:06.917

0 投票

1 回答

387 浏览

bash - 在提示而不是脚本中工作的命令行

这是确切的命令

当我直接在 shell 中运行它时，它工作正常。
当我将它放入 bash 脚本时，它失败了

错误信息来自 bcftools 本身

[主要] 无法识别的命令。

脚本以 ascii 编码：

因此，当 bcftools 直接从提示接收但不在脚本内时，它会接受参数。就像提示符和脚本中的空格的解释方式不同

bash shell bioinformatics vcf-variant-call-format bcftools

2016-07-19T16:12:28.567

0 投票

2 回答

89 浏览

unix - 如何在unix中匹配列中的ID？

我完全知道可能已经发布了类似的问题，但是在搜索之后似乎我们问题的细节有所不同（或者至少我没有设法找到可以在我的情况下采用的解决方案）。

我目前有两个文件："messyFile"和"wantedID"。“messyFile”大小为80,000,000 X 2,500，而“wantedID”大小为1 x 462。在"messyFile"的第 253 行，有 2500 个 ID。但是，我想要的只是文件"wantedID"中的 462 个 ID 。假设 462 ID 是 2500 ID 的子集，我如何处理文件“messyFile”，使其仅包含有关 462 ID 的信息（即大小为80,000,000 X 462）。

非常感谢您的耐心等待！

ps：很抱歉造成混乱。但是，是的，这个问题可以归结为这样的事情。在"File#1"的第一行，有 10 个 ID。在"File#2"的第一行，有 3 个 ID（"File#2"仅包含 1 行）。3 个 ID 是 10 个 ID 的子集。现在，我希望处理"File#1"以便它只包含有关"File#2"中列出的 3 个 ID 的信息。

ps2：“messyFile”是一个vcf文件，而“wantedID”可以是一个文本文件（我说“可以”是因为它很小，所以我几乎可以为它制作任何类型）

ps3：“文件#1”应该是这样的：

“文件#2”应该是这样的：

所需的输出应如下所示：

unix bioinformatics vcf-variant-call-format bcftools

2016-08-29T21:21:02.487

0 投票

2 回答

12586 浏览

bioinformatics - 如何使用 plink 将 vcf 文件转换为 ped 文件？

我正在尝试使用 plink 将 .vcf 文件转换为 .ped 文件。我在网上看了一些手册和帖子，但似乎没有人特别提到如何将vcf转换为ped。

我希望这里可能有一些专家有使用 plink 将 vcf 转换为 ped 的经验。如果您能分享知识，我将不胜感激。此外，如果有另一种方式（非plink），请分享。

谢谢！

bioinformatics vcftools vcf-variant-call-format

2016-09-23T23:41:51.277

0 投票

1 回答

234 浏览

bioinformatics - H-PoPG Haplotyper NullPointerException 算法错误。HBOP2Builder

您好，我正在构建一种基因组组装方法，我的管道的一个关键步骤是分阶段。我一直在寻找不同的方法，最近发现了看起来很有希望用于多倍体单倍体分析的 H-PoPG。我正在尝试测试我的数据，但我得到了以下结果，并且在网络上找不到任何帮助或论坛。

这是我正在使用的命令：

这是错误消息：

谁能通过向我解释这个错误可能来自哪里来指出我正确的方向？非常感谢

bioinformatics vcf-variant-call-format

2016-10-04T18:34:08.480

0 投票

2 回答

514 浏览

python - 如何在大于 RAM gzip 的 csv 文件上聚合值？

对于初学者，我是生物信息学的新手，尤其是编程新手，但我已经构建了一个脚本，它将通过所谓的 VCF 文件（仅包括个人，一个 clumn = 一个个人），并使用搜索字符串找出对于每个变体（线），个体是纯合的还是杂合的。

该脚本至少在小子集上有效，但我知道它将所有内容都存储在内存中。我想在非常大的压缩文件（甚至整个基因组）上执行此操作，但我不知道如何将此脚本转换为逐行执行所有操作的脚本（因为我想计算整个列我只是不看看如何解决）。

所以输出是每个个体 5 个东西（总变体、纯合子数量、杂合子数量以及纯合子和杂合子的比例）。请看下面的代码：

任何帮助将不胜感激，因此我可以继续研究大型数据集，谢谢:)

顺便说一下，VCF 文件看起来像这样： INDIVIDUAL_1 INDIVIDUAL_2 INDIVIDUAL_3 0/0:9,0:9:24:0,24,221 1/0:5,4:9:25:25,0,26 1/1： 0,13:13:33:347,33,0

然后是带有个人 ID 名称的标题行（我总共有 33 个具有更复杂 ID 标签的个人，我在这里简化了），然后我有很多具有相同特定模式的这些信息行。我只对带有斜线的第一部分感兴趣，因此是常规的表达。

python csv gzip bioinformatics vcf-variant-call-format

2016-11-10T13:15:27.537

问题标签 [vcf-variant-call-format]

输入

输出

Reference