问题标签 [vcf-variant-call-format]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

163 问题

0 投票

1 回答

396 浏览

perl - 无法通过 CPAN 安装 perl 包 `Vcf`

我正在尝试VCF为我的 perlbrew 安装安装 perl 包，可以通过vcf-validator

所以我通过 CPAN 安装，VCF 而不是 Vcf

但仍然无法访问模块/库：

我也试过这个

但我仍然无法运行 vcf-validator :(

2019-09-23T19:31:11.683

0 投票

0 回答

46 浏览

python - 比较两个文件中的值并打印出匹配值

我有两个文件，一个文本文件和一个 vcf 文件。我想在 vcf 文件中查找文本文件的值。如果有匹配项，我想打印匹配值，但出现错误：ix = allel.SortedIndex(allel['POS']).locate_intersection(callset["variants/POS"]) TypeError: 'module' object不可下标

文件的内容看起来像这样

python numpy vcf-variant-call-format

2019-09-23T22:43:18.170

0 投票

1 回答

30 浏览

linux - 在大文件的每一列中，删除特定分隔符后的所有内容

我有一个由许多列组成的文件，如下所示：

我想删除每列中的所有内容，以便输出如下所示：

手动应用像 awk 这样的解决方案的列太多了，您必须为每列输入 $1、$2。

我在 R 中尝试了许多解决方案，但都没有给出我正在寻找的结果。他们都拆分了列，而不是只保留第一个条目。这是一个 vcf 文件，我尝试过使用 vcf2tsv，但我无法让依赖项工作。

例如，我尝试了以下代码：

这给了我以下信息：

显然我不明白代码。任何帮助表示赞赏。

linux text-processing vcf-variant-call-format

2019-10-15T16:35:17.710

0 投票

1 回答

27 浏览

python - 函数的所有输出都是相同的

我有读取 VCF 文件的功能

该功能可以按我的意愿工作，但是当我多次使用它时就会出现问题。

我想在不同的文件上多次使用这个函数，并同时使用所有这些不同文件的输出。我一直在使用这样的功能：

问题是，我的所有输出都是相同的，并且都有来自的输出，即frogs.txt我使用该函数的第一个文件。如何在不获取相同值的情况下重用此函数？

python list function vcf-variant-call-format

2019-10-23T21:11:35.937

0 投票

1 回答

50 浏览

bash - 如何从 vcf 表中提取数据

我有两个文件： SCR_location - 包含按升序排列的 SNP 位置信息。

modi_VCF - 一个包含每个 SNP 信息的 vcf 表。

我只想将具有匹配 SNP 位置的行保存到一个新文件中我编写了以下脚本，但它不起作用

bash unix vcf-variant-call-format

2019-11-19T22:45:19.183

0 投票

1 回答

61 浏览

bash - 用 DNA 字母替换数字基因型代码

如何用 DNA 字母替换数字基因型代码？我有一个修改后的 vcf 文件，如下所示：

POS REF ALT A2.bam C10.bam 448 T C 0/0:0,255,255 0/0:0,255,255 2402 C T 1/1:209,23,0 xxx:255,0,255 n...

我想用 ref 字母替换 0/0，用 alt 字母替换 1/1 并删除它后面的所有字符串。它应该是这样的：

POS REF ALT A2.bam C10.bam 448 T C T T 2402 C G G xxx n...

一直在尝试用 sed 来做，但它不起作用不知道如何处理它

bash unix bioinformatics vcf-variant-call-format

2019-11-20T02:56:18.800

0 投票

2 回答

174 浏览

awk - awk 打印 4 列和 $8 的子字符串

我有一个VCF 格式的文件，第 8 列中有几个信息：

我需要将tabix 命令与awk打印 $1,$2,$4,$5 和 $8 的子字符串（只有后面的数字AF_popmax=和后面的数字nhomalt_popmax=）合并，例如：

我试过这个命令：

但我只得到 0/1 incolumn 8 美元：

有人有线索吗？

非常感谢您的任何帮助（欢迎其他方法）

awk substring string-matching vcf-variant-call-format

2019-11-21T12:31:59.483

0 投票

1 回答

57 浏览

bash - 根据 vcf 表数据更改字符串中的章程

我有一个长字符串文件 ( string.txt) ( ) 和一个像这样 abcdefghijklmnop的 vcf 表 ( )file.vcf

该表还包含"mis"and"het"在这种情况下不应替换字符

我想更改特定位置的字符并将所有字符串存储在一个看起来像这样的新文件中

有没有办法在 bash 循环中做到这一点？

bash bioinformatics fasta genome vcf-variant-call-format

2019-11-22T21:14:03.783

0 投票

2 回答

169 浏览

bash - 使用 awk 从 vcf 文件中提取字符串

我正在运行以下代码来操作 vcf 表中的数字数据。

输入文件看起来像这样

由于某种原因，awk 命令无法识别第一列。有什么建议么？

bash unix bioinformatics vcf-variant-call-format

2019-12-04T00:05:49.157

0 投票

2 回答

1067 浏览

python - 解析VCF文件并插入数据库的慢python代码

我有以下代码用于解析 VCF（变体调用格式）文件：

Python代码：

这是我通过脚本传递的示例文件：

示例 VCF 文件：

我的 Postgres 表中的输出 -sampletable

我的 Python 代码运行缓慢。它在 5 分钟内插入大约 1000 条记录。我有超过 500 万条记录。

我正在寻找一些帮助来优化 Python 代码以更快地插入它。请建议。

python vcf-variant-call-format vcftools

2019-12-05T17:32:41.473

1 2 3 4 5 6 7 8 9 10

问题标签 [vcf-variant-call-format]

Reference