问题标签 [vcf-variant-call-format]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1326 浏览

r - 从 bam 文件中提取读取位置

我有一个包含多个 SNP 的 vcf 文件,现在我想看看这些 SNP 是否均匀分布在我从中获得 SNP 的 bam 文件的读取中。具体来说,我想在读取位置上绘制 SNP 的数量。我想知道是否有一些工具可以做到这一点,或者我是否必须自己编写脚本。如果是这样,在 R 中是否有一个包我可以做到这一点(我习惯了 R,但对 perl 没有太多经验)?

0 投票
6 回答
35576 浏览

r - R提取字符串的一部分

我有一个关于提取字符串的一部分的问题。例如我有一个这样的字符串:

我需要提取GN=和之间的所有内容;。所以这里就是NOC2L

那可能吗?

注意:这是INFO列格式VCF 文件格式。GN 是基因名称,所以我们要从INFO列中提取基因名称。

0 投票
4 回答
13099 浏览

bioinformatics - 如何使用 PLink 删除重复的 SNP?

我正在与PLINK合作分析全基因组数据。

有谁知道如何删除重复的 SNP?

0 投票
1 回答
705 浏览

perl - 准备要在 Ubuntu 和 tabix 上运行的 Perl 文件

我不了解 Ubunto 或 Perl,但仍需要在其上安装和运行程序。这就是我正在查看的内容:http: //vcftools.sourceforge.net/docs.html

在安装部分它说:

要构建 vcftools 可执行文件,请在 vcftools 文件夹中键入“make”。

Perl 脚本要求 VCF 文件由 bgzip 压缩并由 tabix 索引(这两个工具都是 tabix 包的一部分,可在此处下载)。这两个工具都必须位于 PATH 环境变量中列出的目录中。要运行 Perl 脚本,必须将 PERL5LIB 环境变量设置为包含 Vcf.pm 模块

导出 PERL5LIB=/path/to/your/installation/perl

所以好的,我提取并复制了他们的 VCFtools 文件夹到 ubuntu 的主文件夹中。然后我说“make”它给出了错误,然后我去下载了那个 tabidx 工具,但是从这一点上我不知道如何处理它,好吧我下载了 tabidx,但是接下来要做什么以及如何做呢?

谢谢。

0 投票
3 回答
1564 浏览

bioinformatics - 基于变异和人类参考构建DNA序列

1000 基因组计划为我们提供了有关数千人 DNA 序列相对于人类参考 DNA 序列“变异”的信息。变体以VCF文件
格式存储。基本上,对于该项目中的每个人,我们都可以从 VCF 文件中获取他/她的 DNA 变异信息,例如,变异的类型(例如插入/删除和 SNP)以及变异相对于参考的位置。参考采用 FASTA 格式。通过结合 VCF 文件中一个人的变异信息和 FASTA 文件中的人类参考,我想为那个人构建 DNA 序列。

我的问题是:是否已经存在一些工具可以很好地执行任务,或者我必须自己编写脚本。

0 投票
0 回答
981 浏览

bioinformatics - GATK 无法识别 VCF4.2 文件

我见过很多人遇到同样的问题,但我还没有找到解决方案。我已经向 GATKs CombineVariants 提供了 24 个 VCF4.1 文件 ( http://evs.gs.washington.edu/EVS/ )。我收到此错误:

我曾在 GATKs 支持处询问过,但没有好的答案。我使用 VCFtools 进行验证,它们都通过了,但有两个非严重警告:

有谁知道?

0 投票
3 回答
83 浏览

shell - 比较两个文件后提取特定列的所有行

我有两个包含数千行的文本文件。文件 A 只有一列 (ID)

文件 B 如下所示:

这是我想要的输出:

即我只想从文件 B 中提取那些 ID 与文件 A 中给出的 ID 匹配的行。我怎样才能做到这一点?谢谢

0 投票
2 回答
697 浏览

bioinformatics - vcf 到 ped 格式:重新定义非 dbSNP

当我将 vcf 文件转换为 ped 格式(使用 vcftools 或使用 vcf 到 1000G 的 ped 转换器)时,我遇到了一个问题,即没有 dbSNP ID 的变体的 ID 获得了该变体的碱基对位置作为身份证。几个变体的示例:

但是,我希望没有 dbSNP ID 的变体获得格式“chr:basepairposition”。所以上面的例子看起来像:

如果有人可以帮助我解释我必须使用什么命令或脚本来更改没有 dbSNP ID 的变体的第二列,那就太好了。

谢谢!

0 投票
1 回答
12641 浏览

r - 从 VCF 文件中提取样本数据

我有一个大型变体调用格式 (VCF) 文件 (> 4GB),其中包含多个样本的数据。

我浏览了 Google、Stackoverflow 并尝试了 R 中的 VariantAnnotation 包以某种方式仅提取特定样本的数据,但没有找到有关如何在 R 中执行此操作的任何信息。

有没有人尝试过这样的事情,或者可能知道另一个可以实现这一点的包?

0 投票
2 回答
1651 浏览

r - 如何使用 VariantAnnotation 包将变体调用格式 (VCF) 文件保存到 R 中的磁盘

我已经在网上搜索了这个没有太多运气。或多或少您总是从VariantAnnotation Package中获得示例。而且由于这个示例在我的计算机上运行良好,我不知道为什么我创建的 VCF 不能。

问题:我想确定选定基因中 SNP 的数量和位置。我有一个大型 VCF 文件(超过 5GB),其中包含有关几种小鼠品系所有染色体上所有 SNP 的信息。显然,如果我尝试在整个基因组规模上做任何事情,我的计算机就会死机,所以我首先确定了 1 号染色体上感兴趣基因的基因组位置。然后我使用 VariantAnnotation 包从VCF 文件:

上面的代码取自我编写的以应变为参数的函数。gnrng 指的是一个包含我感兴趣的基因的基因组位置的 GRanges 对象。

这工作正常,我得到了我的 vcf (dim: 21783 1) 但是当我尝试保存时它不起作用

我什至并行尝试,首先从包中执行示例,然后替换我的 VCF 文件:

这工作得很好,但如果我只用in1代替我的vcf,我会得到同样的错误。

我希望我说清楚了......任何帮助将不胜感激!提前致谢!