我有一个使用PLINK处理的 SNP 文件。我有一个包含数千个 SNP 的列表。在文件中,它们被分配为 NA、0、1 或 2 之一。我想删除具有 NA 的 SNP 列表,即它们是单态的。问题是该文件按顺序列出了所有数千个 SNP,然后在一行中列出了它们各自的值,由空格分隔。根据人工检查,很难看出哪些值对应于哪个 SNP。
有没有一种简单的方法可以使用 PLINK 从文件中删除单态 SNP?还是最好使用 Python 来完成?
我有一个使用PLINK处理的 SNP 文件。我有一个包含数千个 SNP 的列表。在文件中,它们被分配为 NA、0、1 或 2 之一。我想删除具有 NA 的 SNP 列表,即它们是单态的。问题是该文件按顺序列出了所有数千个 SNP,然后在一行中列出了它们各自的值,由空格分隔。根据人工检查,很难看出哪些值对应于哪个 SNP。
有没有一种简单的方法可以使用 PLINK 从文件中删除单态 SNP?还是最好使用 Python 来完成?
如果您还没有找到它,您可以使用PLINK --maf
.
删除数据集中的单态 SNP(那些 MAF = 0.0) http://www.shapeit.fr/pages/pedmap.html
呃,不是NA
说某些 snps 缺少数据值吗?要删除这些,您应该使用--geno
命令。引用文档:
--geno 过滤掉所有缺失调用率超过所提供值(默认 0.1)的变体以被删除
但是,该--maf
命令确实删除了单态 snps。将 --maf 设置为略高于 0 可能是明智的,因为如果以非常低的频率发现等位基因,它可能代表基因分型错误。
总而言之,您可能希望在 plink 命令中插入以下类型的质量控制:
--geno 0.03 --hwe 0.00001 --maf 0.00001
(hwe
只是常规的 Hardy-Weinberg 平衡)。