问题标签 [vcftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bash - Bash 故障排除:不是有效的标识符
这里的初学者试图让管道在 bash 中工作。如果有人可以看到为什么当我运行以下命令时,我会得到:
那真的很有帮助。另外如果有其他错误请告诉我
这个想法是为区域文本文件(包含基因组坐标)中的每一行运行一个在文件中调用tabix
的vcf.bz
程序,然后使用vcftools
指定选项运行输出,然后将所有输出放入genomesregions.txt
文件中。
perl - 准备要在 Ubuntu 和 tabix 上运行的 Perl 文件
我不了解 Ubunto 或 Perl,但仍需要在其上安装和运行程序。这就是我正在查看的内容:http: //vcftools.sourceforge.net/docs.html
在安装部分它说:
要构建 vcftools 可执行文件,请在 vcftools 文件夹中键入“make”。
Perl 脚本要求 VCF 文件由 bgzip 压缩并由 tabix 索引(这两个工具都是 tabix 包的一部分,可在此处下载)。这两个工具都必须位于 PATH 环境变量中列出的目录中。要运行 Perl 脚本,必须将 PERL5LIB 环境变量设置为包含 Vcf.pm 模块
导出 PERL5LIB=/path/to/your/installation/perl
所以好的,我提取并复制了他们的 VCFtools 文件夹到 ubuntu 的主文件夹中。然后我说“make”它给出了错误,然后我去下载了那个 tabidx 工具,但是从这一点上我不知道如何处理它,好吧我下载了 tabidx,但是接下来要做什么以及如何做呢?
谢谢。
zlib - Linux Makefile:未定义对“gzbuffer”的引用(其中 LIB = -lz)
我正在尝试安装一个程序(vcftools),其 Makefile 内容如下:
我无法让这个 Makefile 正确运行,而是得到一个错误,内容如下:
我认为部分问题是与我的 zlib 安装路径相关的错误。我尝试更改 -I 和 -L 路径以匹配我的 zlib 安装,但没有任何运气(有很多文件夹似乎包含 zlib 文件)。
此外,通过搜索与该程序相关的其他论坛(此处),似乎我可能需要 zlib1g-dev。zlib1g-dev 在我的电脑上(它显示在我的 ubuntu 软件中心),但是当我进入时没有显示:
我考虑过删除并重新安装 zlib,但看起来有几个程序依赖于它。尝试运行安装或删除时,我收到以下消息:
sudo apt-get install zlib-devel
我不确定问题是否出在我的计算机上安装 zlib 的位置、安装中的错误,或者其他完全在我脑海中的问题。任何建议将不胜感激。谢谢你。
r - 提取数字 R 后从两列中选择更高的值
我有一个数据框(8 个变量的 451 个 obs),它有两列(6 和 7),如下所示:
我想创建一个总结这一点的专栏。为此,我不关心每个单元格中的字母,但我希望保留更大的数字,无论它在哪一行。即我希望它看起来像这样:
没必要,但对于那些想知道我在做什么的人来说,这是一个名为 VCFtools 的程序的输出;它有一个计数功能,可以计算 VCF 中的等位基因,但有时当等位基因明显更常见时,它会将等位基因命名为“次要”。
谢谢你的帮助!
bioinformatics - GATK 无法识别 VCF4.2 文件
我见过很多人遇到同样的问题,但我还没有找到解决方案。我已经向 GATKs CombineVariants 提供了 24 个 VCF4.1 文件 ( http://evs.gs.washington.edu/EVS/ )。我收到此错误:
我曾在 GATKs 支持处询问过,但没有好的答案。我使用 VCFtools 进行验证,它们都通过了,但有两个非严重警告:
有谁知道?
bioinformatics - vcf 到 ped 格式:重新定义非 dbSNP
当我将 vcf 文件转换为 ped 格式(使用 vcftools 或使用 vcf 到 1000G 的 ped 转换器)时,我遇到了一个问题,即没有 dbSNP ID 的变体的 ID 获得了该变体的碱基对位置作为身份证。几个变体的示例:
但是,我希望没有 dbSNP ID 的变体获得格式“chr:basepairposition”。所以上面的例子看起来像:
如果有人可以帮助我解释我必须使用什么命令或脚本来更改没有 dbSNP ID 的变体的第二列,那就太好了。
谢谢!
r - 连续添加到给定不同 if else 语句的字符串 [R]
我有一个令人费解的问题,我希望我能简单地解释一下......
我有以下数据:
我想创建一个 ALT 变量,以便最终可以通过 VCFtools 运行它。但是,当且仅当满足某个语句时,我不完全确定如何通过不断添加变量来创建变量。
例如:
第一列很简单,ALT只有T;但是我只想在 ALT 列中粘贴 T,而不添加“|” 或者 ” - ”。第二个略有不同,我不想将 A 添加到 ALT 变量中,只是因为它在 SNP 条目下可见,而是添加了 T 和 G,由一列分隔。
所以本质上,我只想将每个字母添加到 ALT 变量中,前提是它不等于 REF 变量并且它不等于“--”。
我已经将 SNP 列拆分如下:
但是从这里有点卡住了。我也有“+C,+CC”和“-C”的问题......对于这些,SNP列中的字母被忽略但REF和ALT变为:“A”和“AC,ACC”和分别为“GC”和“G”。我也把它分开了:
如果这真的没有意义;这是我希望不同的选项:
我只包含了上面的例子,但文件中有所有不同的组合。这可以在 R 中完成,还是会变得非常复杂。
提前谢谢...
注1:
首先,如果我在上面的查询中不清楚这一点,我们深表歉意。并感谢那些迄今为止提供帮助的人。根据要求,INDEL 的 ALT 变量将根据 INDEL 前面是否有“-”号或“+”号而改变(即,这不会遵循与 SNP 相同的规则,后者将是大多数行)。
例如:
“-C”(或任何有“-”符号的地方),如上所述,REF 需要变为 REF+INDEL,ALT 变为 REF(如果需要,用逗号分隔):
/li>如果有“+”号(无论是 +C、+CC 还是 +GGG 或其他),REF 保持不变,但 ALT 变为 REF+INDEL(如果需要,用逗号分隔):
/li>
bash - 用于成对比较的 Bash 脚本
我想编写一个 bash 脚本来对我的文件进行成对计算。
我在目录中有一个固定文件和一系列文件,我想将它们用于成对比较。
例如:
固定文件的名称是:Genome.vcf 成对计算的文件名都在一个目录中:ind_GER、ind_ENG、ind_MRO
我想出了以下脚本:
我得到的错误是:
显然,我弄错了,如果您能提供帮助,我将不胜感激,谢谢。
linux - 在 linux 中重定向 vcftools 文件 - 提示
这是从特定区域获取 VCF 文件的代码,tabix
然后使用 vcftools 中的“保留”选项过滤特定(欧洲)人口。
问题:它创建了 recode.vcf 文件,但是由于 temp2 文件为空,因此没有发生重定向
bioinformatics - 在 Vcftools 上从 Weir-Fst 推断方差分量
上面的脚本使用 Weir 和 Cokerham 的 1984 公式计算 1000 个基因组种群数据的 Fst 距离。该公式使用 3 个方差分量,即 a、b、c(群体之间;群体内个体之间;群体内个体内配子之间)。
输出直接提供公式的结果,而不是程序计算得出最终结果的组件。如何让 Vcftools 输出 a、b、c 的值?