问题标签 [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - Linkdatagen 中的错误:在连接 (.) 或字符串中使用了未启动的值 $chr
嗨,我正在尝试使用 linkdatagen,这是一个基于 perl 的工具。它需要一个 vcf 文件(使用 SAMtools 的 mpileup)和一个 hapmap 注释文件(已提供)。我已按照说明进行操作,但在使用提供的 perl 脚本时,出现此错误。我使用的代码是:
Use of uninitiated value $chr in concatenation (.) or string at vcf2linkdatagentest.pl line 487, <IN> line 1
....它一直在继续.. 我已经给作者发了邮件,还没有收到他们的消息。有人可以帮我吗?我究竟做错了什么?
perl 脚本是: http ://bioinf.wehi.edu.au/software/linkdatagen/vcf2linkdatagen.pl
HapMap 文件可以从下面提到的网站下载。
http://bioinf.wehi.edu.au/software/linkdatagen/
非常感谢
r - 使用循环和 if else 语句有条件地处理(bgzip、tabix)文件
我有一些.vcf
文件。我从我的目录中选择了这些文件,并希望将它们转换为其他两种格式。
我在这里使用if
和有点困惑else if
。我想这样做:如果该文件没有文件.bgz
,我想将其转换为保留原始文件的文件。[i]
.vcf
.bgz
如果已经有.bgz
文件,但没有.bgz.tbi
该文件的[i]
文件.bgz
,那么我想将 .bgz
文件转换为文件,保留从文件中获得.bgz.tbi
的原始文件。.bgz
.vcf
有人可以帮我完成这个循环吗?它适用于 if 条件,但不知道如何从那里开始。
r - R:(Pegas)单倍型问题-(错误:'h'必须属于'haplotype'类)
我最近开始研究单倍型数据,我正在处理来自 1000 个基因组项目的数据,并尝试使用 R 中的 Pegas 包对其进行操作。到目前为止,我已经走到了这一步:
我想绘制一个单倍型网,但它不执行它。我收到以下消息:“h”必须属于“单倍型”类
如果我打印出 h 我得到:
它显然分配了 19 个单倍型。数据的呈现方式一定有问题。有什么建议吗?此外,关于 Pegas 以及如何使用 Pegas 操作 VCF 文件的资料也很少。有没有人知道一个很好的资源(网页或书籍)来获取有关如何从 VCF 文件中使用单倍型的信息,它甚至不一定适用于 Pegas,任何 R 库都可以,或者 Python ......真的。
谢谢你的帮助,彼得
r - 变体位置有时被子集的大型 VCF 文件中的 ID 替换?
我有一个大型 VCF 文件,我想从中提取某些列和信息,并将其与变体位置匹配。我以为我有这个工作,但是对于某些变体而不是相应的变体位置,我被赋予了 ID?
我的代码如下所示:
结果如下所示:
我希望结果如下所示:
关于这里发生了什么以及如何解决它的任何想法?
如果有一种方法可以使用 CHROM 和 position 字段附加变体位置,我也会很高兴,但我无法从这些字段的研究数据中请求它们,因为它们是用于创建变体位置的 GRange 的基本字段。
perl - 在两个大的排序文本文件中查找匹配键并比较值(VCF 文件)
我正在寻找一种有效的解决方案来过滤两个数据集。基本上,我只想保留一个文件中没有缺失的行作为它们的键列,并且在两个文件中都没有值“0/0”。
输入数据(对于那些感兴趣的人,我为这个问题简化的基因组 VCF 文件)具有以下特征:
- 第 1 列和第 2 列一起是按数字排序的唯一标识符
- 第 3 列以值 0/0、0/1 或 1/1 开头
理想情况下,该脚本将执行以下操作:
- 遍历 sample1.dat 中的每一行并在 sample2.dat 中查找相同的标识符
- 如果在 sample2.dat 中找不到来自 sample1.dat 的标识符,则什么也不做
- 如果两行都包含“0/0”,则什么也不做
- 如果一行或两行不包含“0/0”,则将这两行写入各自的输出。
输入
样本1.dat
样本2.dat
输出
sample1_out.dat
sample2_out.dat
在这种情况下,不会打印 1-1001,因为它们都具有值“0/0”,并且不会打印 2-1234 和 2-3456,因为它们在两个文件中都不存在。
一些注意事项:
- 这些文件大约 260GB,但我可以轻松地将它们拆分为多个最大 18GB 的文件(我基本上将它们拆分为染色体)
- 我机器上的可用内存约为 128GB
- 第 1 列和第 2 列一起已经按数字顺序排序
任何帮助是极大的赞赏!
bash - 在提示而不是脚本中工作的命令行
这是确切的命令
当我直接在 shell 中运行它时,它工作正常。
当我将它放入 bash 脚本时,它失败了
错误信息来自 bcftools 本身
[主要] 无法识别的命令。
脚本以 ascii 编码:
因此,当 bcftools 直接从提示接收但不在脚本内时,它会接受参数。就像提示符和脚本中的空格的解释方式不同
unix - 如何在unix中匹配列中的ID?
我完全知道可能已经发布了类似的问题,但是在搜索之后似乎我们问题的细节有所不同(或者至少我没有设法找到可以在我的情况下采用的解决方案)。
我目前有两个文件:"messyFile"和"wantedID"。“messyFile”大小为80,000,000 X 2,500,而“wantedID”大小为1 x 462。在"messyFile"的第 253 行,有 2500 个 ID。但是,我想要的只是文件"wantedID"中的 462 个 ID 。假设 462 ID 是 2500 ID 的子集,我如何处理文件“messyFile”,使其仅包含有关 462 ID 的信息(即大小为80,000,000 X 462)。
非常感谢您的耐心等待!
ps:很抱歉造成混乱。但是,是的,这个问题可以归结为这样的事情。在"File#1"的第一行,有 10 个 ID。在"File#2"的第一行,有 3 个 ID("File#2"仅包含 1 行)。3 个 ID 是 10 个 ID 的子集。现在,我希望处理"File#1"以便它只包含有关"File#2"中列出的 3 个 ID 的信息。
ps2:“messyFile”是一个vcf文件,而“wantedID”可以是一个文本文件(我说“可以”是因为它很小,所以我几乎可以为它制作任何类型)
ps3:“文件#1”应该是这样的:
“文件#2”应该是这样的:
所需的输出应如下所示:
bioinformatics - 如何使用 plink 将 vcf 文件转换为 ped 文件?
我正在尝试使用 plink 将 .vcf 文件转换为 .ped 文件。我在网上看了一些手册和帖子,但似乎没有人特别提到如何将vcf转换为ped。
我希望这里可能有一些专家有使用 plink 将 vcf 转换为 ped 的经验。如果您能分享知识,我将不胜感激。此外,如果有另一种方式(非plink),请分享。
谢谢!
bioinformatics - H-PoPG Haplotyper NullPointerException 算法错误。HBOP2Builder
您好,我正在构建一种基因组组装方法,我的管道的一个关键步骤是分阶段。我一直在寻找不同的方法,最近发现了看起来很有希望用于多倍体单倍体分析的 H-PoPG。我正在尝试测试我的数据,但我得到了以下结果,并且在网络上找不到任何帮助或论坛。
这是我正在使用的命令:
这是错误消息:
谁能通过向我解释这个错误可能来自哪里来指出我正确的方向?非常感谢
python - 如何在大于 RAM gzip 的 csv 文件上聚合值?
对于初学者,我是生物信息学的新手,尤其是编程新手,但我已经构建了一个脚本,它将通过所谓的 VCF 文件(仅包括个人,一个 clumn = 一个个人),并使用搜索字符串找出对于每个变体(线),个体是纯合的还是杂合的。
该脚本至少在小子集上有效,但我知道它将所有内容都存储在内存中。我想在非常大的压缩文件(甚至整个基因组)上执行此操作,但我不知道如何将此脚本转换为逐行执行所有操作的脚本(因为我想计算整个列我只是不看看如何解决)。
所以输出是每个个体 5 个东西(总变体、纯合子数量、杂合子数量以及纯合子和杂合子的比例)。请看下面的代码:
任何帮助将不胜感激,因此我可以继续研究大型数据集,谢谢:)
顺便说一下,VCF 文件看起来像这样: INDIVIDUAL_1 INDIVIDUAL_2 INDIVIDUAL_3 0/0:9,0:9:24:0,24,221 1/0:5,4:9:25:25,0,26 1/1: 0,13:13:33:347,33,0
然后是带有个人 ID 名称的标题行(我总共有 33 个具有更复杂 ID 标签的个人,我在这里简化了),然后我有很多具有相同特定模式的这些信息行。我只对带有斜线的第一部分感兴趣,因此是常规的表达。