问题标签 [vcf-variant-call-format]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

163 问题

0 投票

1 回答

4799 浏览

csv - Plink：将数据子集导出为 txt 或 csv

我在 PLINK 中执行了 GWAS，现在我想在一个名为snps.txt.

我想将这些特定 SNP 的 PLINK 数据导出到一个.txt或.csv文件中。理想情况下，该文件将包含这些 SNP 的单个 ID 和基因型，以便我以后可以将其与我的表型文件合并并执行其他分析和绘图。

有没有简单的方法可以做到这一点？我知道我只能--extract用来请求特定的 SNP，但我找不到告诉 PLINK 将数据导出为“可导出”基于文本的格式的方法。

csv extract bioinformatics vcf-variant-call-format

2014-05-22T18:55:44.210

0 投票

2 回答

5257 浏览

bioinformatics - 从 .bim、.bed 和 .fam 文件创建 VCF

我有一个 .fam、.bed 和 .bim 文件，其中包含少数人的标记。我需要将其转换为 VCF 文件。

有人可以帮助创建一个 VCF 文件。有没有可以做到这一点的开源工具？

bioinformatics genetics bam vcf-variant-call-format bed

2014-08-05T07:28:23.907

0 投票

1 回答

617 浏览

r - 使用 R 进行下一代测序 vcf 文件

我是 R 初学者。我正在使用 R 分析我的大型下一代测序 vcf 文件并且遇到了一些困难。我已将非常大的 vcf 文件导入为数据框（2446824 个变量，共 177 个变量），并用我感兴趣的 3 个样本（2446824 个变量，共 29 个变量）创建了一个子集。

我现在希望进一步减小尺寸（将行数减少到 200000 左右）。我一直在尝试使用 grep，但无法使其正常工作。我得到的错误是

这是我正在使用的文件的一个小示例部分。

有两种不同的方法可以减少此数据集中的行数：

代码 1。如果 $Run.Sample1 或 $Run.Sample2 或 $Run.Sample3 包含“0/1”或“1/0”或“1/1”，则保留整行

代码 2。如果 $Run.Sample1 或 $Run.Sample2 包含“0/1”或“1/0”或“1/1”且 $Run.Sample3 包含“0/0”，则保留整行

我想从代码 1 中得到的结果是：

我想从代码 2 中得到的结果是：

非常感谢您的帮助

凯利

r regex bioinformatics sequencing vcf-variant-call-format

2014-09-01T05:30:01.193

0 投票

1 回答

180 浏览

linux - 在 linux 中重定向 vcftools 文件 - 提示

这是从特定区域获取 VCF 文件的代码，tabix然后使用 vcftools 中的“保留”选项过滤特定（欧洲）人口。

问题：它创建了 recode.vcf 文件，但是由于 temp2 文件为空，因此没有发生重定向

linux bioinformatics genetics vcf-variant-call-format vcftools

2014-10-01T21:00:27.253

0 投票

1 回答

476 浏览

bioinformatics - vcf-consensus 脚本错误：fasta 文件中未找到序列 N

我正在尝试将此脚本（vcf-consensus）与一个简单的示例一起使用，但我有一个错误：在 fasta 文件中找不到序列“7”。

语法是：

我的 FASTA 文件是：

我的 VCF 文件是：

我通过 bgzip 压缩并通过 tabix 索引 VCF 文件：

然后，我执行：

我收到此错误：在 fasta 文件中找不到序列“7”。

有人知道吗？

谢谢。

bioinformatics variant fasta consensus vcf-variant-call-format

2014-11-22T19:00:36.510

0 投票

1 回答

1630 浏览

r - 如何在 R 中对基因组 VCF 文件运行 PCA、距离矩阵和其他数学程序？

我正在学习处理 VCF（变体调用文件）以生成图表和报告。这是 R 代码，由于我未知的原因而崩溃。请告知如何修复它并告诉适当的教程。

r bioinformatics genetics vcf-variant-call-format google-genomics

2015-02-03T12:29:11.110

0 投票

2 回答

1615 浏览

java - hadoop mapreduce：处理带有标题的文本文件

我正在玩和学习 hadoop MapReduce。

我正在尝试从VCF文件 ( http://en.wikipedia.org/wiki/Variant_Call_Format ) 映射数据：VCF 是一个制表符分隔的文件，以（可能很大）标题开头。此标头是获取正文中记录的语义所必需的。

我想创建一个使用这些数据的映射器。必须可以从此 Mapper 访问标头才能对行进行解码。

从http://jayunit100.blogspot.fr/2013/07/hadoop-processing-headers-in-mappers.html ，我创建了这个InputFormat，带有一个自定义的 Reader ：

现在，在Mapper中，有没有办法有一个指针VcfInputFormat.this.headerLines来解码这些行？

java hadoop mapreduce bioinformatics vcf-variant-call-format

2015-05-05T12:24:12.510

0 投票

1 回答

1175 浏览

bioinformatics - 在 Vcftools 上从 Weir-Fst 推断方差分量

上面的脚本使用 Weir 和 Cokerham 的 1984 公式计算 1000 个基因组种群数据的 Fst 距离。该公式使用 3 个方差分量，即 a、b、c（群体之间；群体内个体之间；群体内个体内配子之间）。

输出直接提供公式的结果，而不是程序计算得出最终结果的组件。如何让 Vcftools 输出 a、b、c 的值？

bioinformatics vcf-variant-call-format vcftools

2015-05-08T10:57:53.813

0 投票

1 回答

129 浏览

python - 将一列值与linux环境中的所有列进行比较

所以我有两个文件，一个 VCF 看起来像

还有一个基因看起来像

我想要一个脚本来查看第二个文件的第二个和第三个位置范围内是否有基因位置（VCF 文件的第三列），然后将其打印出来。

到目前为止我所做的是加入文件并做

我所做的仅比较当前连接文件的行（仅在值位于同一行时才打印），如何使其将第 3 列的所有行与第 12 列和第 13 列的所有行进行比较？

最好的，塞尔格

python awk sed bioinformatics vcf-variant-call-format

2015-05-12T12:37:03.040

0 投票

2 回答

16216 浏览

r - 如何在 R 中读取 vcf 文件

我有这个VCF 格式文件，我想在 R 中读取这个文件。但是，这个文件包含一些我想跳过的冗余行。我想得到类似于行以匹配行开头的结果#CHROM。

这是我尝试过的：

我的文件.vcf

结果

r bioinformatics genetics vcf-variant-call-format

2015-09-11T00:45:17.243

1 2 3 4 5 6 7 8 9 10