bioinformatics - 将多个 VCF 文件合并为一个大 VCF 文件

Question

我有来自特定种族的 VCF 文件列表，例如美洲印第安人、中国人、欧洲人等

在每个种族下，我有大约 100 多个文件。

目前，我计算了一个文件的VARIANT QC 指标，例如 call_rate， n_het 等，如冰雹教程中所示（参考下图）

图片在这里

但是，现在我想为每个种族创建一个文件，然后计算VARIANT_QC指标。

我已经提到了这篇文章和这篇文章，但不认为这能解决我的问题

如何在特定种族下的所有文件中执行此操作？

可以帮我解决这个问题吗？

有没有hail/python/R/other tools办法做到这一点？

score 2 · Accepted Answer

您可以使用Variant Transforms来实现此目标。Variant Transforms 是一种用于解析 VCF 文件并将其导入BigQuery的工具。它还可以执行反向转换：将存储在 BigQuery 表中的变体导出到 VCF 文件。所以基本上你需要： multiple VCF files -> BigQuery -> Single VCF file

Variant Transforms 可以轻松处理多个输入文件。它还可以执行更复杂的逻辑，将多个文件中的相同变体合并到同一记录中。在您的变体全部加载到 BigQuery 后，您可以将它们导出到 VCF 文件。

请注意，Variant Transforms为每个染色体创建一个单独的表以优化查询成本。您可以轻松地为每条染色体创建一个 VCF 文件，然后将它们合并在一起以创建一个。

如果您需要有关此任务的帮助，可以联系Variant Transforms 团队。

bioinformatics - 将多个 VCF 文件合并为一个大 VCF 文件

1 回答 1

Related

Reference