问题标签 [bcftools]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
bioinformatics - 如何使用 PLink 删除重复的 SNP?
我正在与PLINK合作分析全基因组数据。
有谁知道如何删除重复的 SNP?
makefile - Makefile - samtools 安装失败
我正在尝试在 openSUSE 上安装 samtools,我这样做了:
工作得很好。
工作得很好。
对于 samtools:
产生这个输出:
我不明白为什么这行不通。我知道如何使工具工作,但我是 linuxOS 的新手。
perl - Linkdatagen 中的错误:在连接 (.) 或字符串中使用了未启动的值 $chr
嗨,我正在尝试使用 linkdatagen,这是一个基于 perl 的工具。它需要一个 vcf 文件(使用 SAMtools 的 mpileup)和一个 hapmap 注释文件(已提供)。我已按照说明进行操作,但在使用提供的 perl 脚本时,出现此错误。我使用的代码是:
Use of uninitiated value $chr in concatenation (.) or string at vcf2linkdatagentest.pl line 487, <IN> line 1
....它一直在继续.. 我已经给作者发了邮件,还没有收到他们的消息。有人可以帮我吗?我究竟做错了什么?
perl 脚本是: http ://bioinf.wehi.edu.au/software/linkdatagen/vcf2linkdatagen.pl
HapMap 文件可以从下面提到的网站下载。
http://bioinf.wehi.edu.au/software/linkdatagen/
非常感谢
bash - 在提示而不是脚本中工作的命令行
这是确切的命令
当我直接在 shell 中运行它时,它工作正常。
当我将它放入 bash 脚本时,它失败了
错误信息来自 bcftools 本身
[主要] 无法识别的命令。
脚本以 ascii 编码:
因此,当 bcftools 直接从提示接收但不在脚本内时,它会接受参数。就像提示符和脚本中的空格的解释方式不同
unix - 如何在unix中匹配列中的ID?
我完全知道可能已经发布了类似的问题,但是在搜索之后似乎我们问题的细节有所不同(或者至少我没有设法找到可以在我的情况下采用的解决方案)。
我目前有两个文件:"messyFile"和"wantedID"。“messyFile”大小为80,000,000 X 2,500,而“wantedID”大小为1 x 462。在"messyFile"的第 253 行,有 2500 个 ID。但是,我想要的只是文件"wantedID"中的 462 个 ID 。假设 462 ID 是 2500 ID 的子集,我如何处理文件“messyFile”,使其仅包含有关 462 ID 的信息(即大小为80,000,000 X 462)。
非常感谢您的耐心等待!
ps:很抱歉造成混乱。但是,是的,这个问题可以归结为这样的事情。在"File#1"的第一行,有 10 个 ID。在"File#2"的第一行,有 3 个 ID("File#2"仅包含 1 行)。3 个 ID 是 10 个 ID 的子集。现在,我希望处理"File#1"以便它只包含有关"File#2"中列出的 3 个 ID 的信息。
ps2:“messyFile”是一个vcf文件,而“wantedID”可以是一个文本文件(我说“可以”是因为它很小,所以我几乎可以为它制作任何类型)
ps3:“文件#1”应该是这样的:
“文件#2”应该是这样的:
所需的输出应如下所示:
bash - 当下一个字符为“t”时,使用 sed 命令转义反斜杠
我正在使用这个 sed 命令将字符串替换"##INFO=<ID="
为"\t%"
:
但我得到的正是我想要的输出,而不是反斜杠,它不打印任何东西。如果我删除 sed 命令中的单引号\t%INFO
,它会自动标记输出,所以我也不希望这样。
我怎样才能逃避反斜杠,以便它只打印一个反斜杠?
python - 使用不同参数两次运行相同规则的最佳方法
我bcftools consensus
用来从 vcf 文件中提取单倍型。给定输入文件:
创建以下输出文件:
我目前有两条规则可以做到这一点。它们的区别仅在于输出文件和 shell 命令中的数字 1 和 2。代码:
虽然这段代码有效,但似乎应该有一种更好、更 Pythonic 的方式来只使用一个规则来做到这一点。是否可以将其合并为一个规则,或者我目前的方法是最好的方法?
genetics - 如何删除缺少名称的 snps
我有 1000 G PLINK 格式的数据集,有一些名称为"."
的 snps,在 PLINK 中有什么方法可以删除该 snps?
我尝试了无法正常工作的 bcftool 视图。
bash - 带有空变量的 Else-If Satement 不起作用
我正在尝试在 shell/bash 脚本中编写一个 if-else 条件,该条件将用于许多不同的文件,因此它不适合某种结构。
我有三个不同的文件,并且从这些文件中的每个文件中选择了最多三个不同的变量,这些变量进入 if-else 语句。在我的脚本中,我在开头写了这个(可能可以用更好的方式写)如下:
例如,从这些文件中,可能会产生以下变量:
从这里开始,我编写了 if-else 语句(考虑到上述三个文件中可能缺少的变量)。为了理解它,尝试执行以下操作:
第一个条件:如果所有变量都不为空;第二个条件:如果第三个变量是唯一缺失的变量;第三个条件:如果第三个和第二个变量为空
每次我运行此脚本时,都应该生成 3 个文件,但有时并非如此。第一部分有效(对于所有变量都不为空的文件) - 但第二个和第三个条件似乎没有。我也尝试过分别指出缺失[ -z "${ANC3}" ]
和[ -n "${ANC2}" ]
非缺失,但这也不起作用。也试过[[ ]]
比较[ ]
,但还是一样。
有什么我明显遗漏的吗?
segmentation-fault - 修复 bcftools 中的分段错误错误
我正在尝试使用 bcftools 合并 3000 个细菌 bcf 文件。vcf 文件已使用 GATK 生成并转换为 bcf 并由 bcftools 索引。bcftools 继续分析 20% 的数据,但它一直过早终止并仅为部分变体生成合并的 bcf 文件(来自 2M 细菌基因组的高达 500kb)。我正在使用的代码是这样的:
输出错误是:
以前我对 400 个样本尝试了相同的命令,没有任何问题。
在线搜索,“当对变量的引用落在该变量所在的段之外,或者尝试写入只读段中的位置时,就会发生段错误”。该命令在为特定作业提供 80Gb 可用 RAM 的集群上运行。我不确定这个错误是由于 bcftools 软件本身的问题还是由于运行该命令的系统的限制?
这是用于复制错误的示例 bcf 文件 ( https://figshare.com/articles/BCF_file_segfault/7412864 )。该错误仅出现在大样本量中,因此我无法进一步减小样本量。