问题标签 [vcf-variant-call-format]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 从 bam 文件中提取读取位置
我有一个包含多个 SNP 的 vcf 文件,现在我想看看这些 SNP 是否均匀分布在我从中获得 SNP 的 bam 文件的读取中。具体来说,我想在读取位置上绘制 SNP 的数量。我想知道是否有一些工具可以做到这一点,或者我是否必须自己编写脚本。如果是这样,在 R 中是否有一个包我可以做到这一点(我习惯了 R,但对 perl 没有太多经验)?
r - R提取字符串的一部分
我有一个关于提取字符串的一部分的问题。例如我有一个这样的字符串:
我需要提取GN=
和之间的所有内容;
。所以这里就是NOC2L
。
那可能吗?
注意:这是INFO
列格式VCF 文件格式。GN 是基因名称,所以我们要从INFO
列中提取基因名称。
bioinformatics - 如何使用 PLink 删除重复的 SNP?
我正在与PLINK合作分析全基因组数据。
有谁知道如何删除重复的 SNP?
perl - 准备要在 Ubuntu 和 tabix 上运行的 Perl 文件
我不了解 Ubunto 或 Perl,但仍需要在其上安装和运行程序。这就是我正在查看的内容:http: //vcftools.sourceforge.net/docs.html
在安装部分它说:
要构建 vcftools 可执行文件,请在 vcftools 文件夹中键入“make”。
Perl 脚本要求 VCF 文件由 bgzip 压缩并由 tabix 索引(这两个工具都是 tabix 包的一部分,可在此处下载)。这两个工具都必须位于 PATH 环境变量中列出的目录中。要运行 Perl 脚本,必须将 PERL5LIB 环境变量设置为包含 Vcf.pm 模块
导出 PERL5LIB=/path/to/your/installation/perl
所以好的,我提取并复制了他们的 VCFtools 文件夹到 ubuntu 的主文件夹中。然后我说“make”它给出了错误,然后我去下载了那个 tabidx 工具,但是从这一点上我不知道如何处理它,好吧我下载了 tabidx,但是接下来要做什么以及如何做呢?
谢谢。
bioinformatics - 基于变异和人类参考构建DNA序列
1000 基因组计划为我们提供了有关数千人 DNA 序列相对于人类参考 DNA 序列“变异”的信息。变体以VCF文件
格式存储。基本上,对于该项目中的每个人,我们都可以从 VCF 文件中获取他/她的 DNA 变异信息,例如,变异的类型(例如插入/删除和 SNP)以及变异相对于参考的位置。参考采用 FASTA 格式。通过结合 VCF 文件中一个人的变异信息和 FASTA 文件中的人类参考,我想为那个人构建 DNA 序列。
我的问题是:是否已经存在一些工具可以很好地执行任务,或者我必须自己编写脚本。
bioinformatics - GATK 无法识别 VCF4.2 文件
我见过很多人遇到同样的问题,但我还没有找到解决方案。我已经向 GATKs CombineVariants 提供了 24 个 VCF4.1 文件 ( http://evs.gs.washington.edu/EVS/ )。我收到此错误:
我曾在 GATKs 支持处询问过,但没有好的答案。我使用 VCFtools 进行验证,它们都通过了,但有两个非严重警告:
有谁知道?
shell - 比较两个文件后提取特定列的所有行
我有两个包含数千行的文本文件。文件 A 只有一列 (ID)
文件 B 如下所示:
这是我想要的输出:
即我只想从文件 B 中提取那些 ID 与文件 A 中给出的 ID 匹配的行。我怎样才能做到这一点?谢谢
bioinformatics - vcf 到 ped 格式:重新定义非 dbSNP
当我将 vcf 文件转换为 ped 格式(使用 vcftools 或使用 vcf 到 1000G 的 ped 转换器)时,我遇到了一个问题,即没有 dbSNP ID 的变体的 ID 获得了该变体的碱基对位置作为身份证。几个变体的示例:
但是,我希望没有 dbSNP ID 的变体获得格式“chr:basepairposition”。所以上面的例子看起来像:
如果有人可以帮助我解释我必须使用什么命令或脚本来更改没有 dbSNP ID 的变体的第二列,那就太好了。
谢谢!
r - 从 VCF 文件中提取样本数据
我有一个大型变体调用格式 (VCF) 文件 (> 4GB),其中包含多个样本的数据。
我浏览了 Google、Stackoverflow 并尝试了 R 中的 VariantAnnotation 包以某种方式仅提取特定样本的数据,但没有找到有关如何在 R 中执行此操作的任何信息。
有没有人尝试过这样的事情,或者可能知道另一个可以实现这一点的包?
r - 如何使用 VariantAnnotation 包将变体调用格式 (VCF) 文件保存到 R 中的磁盘
我已经在网上搜索了这个没有太多运气。或多或少您总是从VariantAnnotation Package中获得示例。而且由于这个示例在我的计算机上运行良好,我不知道为什么我创建的 VCF 不能。
问题:我想确定选定基因中 SNP 的数量和位置。我有一个大型 VCF 文件(超过 5GB),其中包含有关几种小鼠品系所有染色体上所有 SNP 的信息。显然,如果我尝试在整个基因组规模上做任何事情,我的计算机就会死机,所以我首先确定了 1 号染色体上感兴趣基因的基因组位置。然后我使用 VariantAnnotation 包从VCF 文件:
上面的代码取自我编写的以应变为参数的函数。gnrng 指的是一个包含我感兴趣的基因的基因组位置的 GRanges 对象。
这工作正常,我得到了我的 vcf (dim: 21783 1) 但是当我尝试保存时它不起作用
我什至并行尝试,首先从包中执行示例,然后替换我的 VCF 文件:
这工作得很好,但如果我只用in1代替我的vcf,我会得到同样的错误。
我希望我说清楚了......任何帮助将不胜感激!提前致谢!