1

我有来自特定种族的 VCF 文件列表,例如美洲印第安人、中国人、欧洲人等

在每个种族下,我有大约 100 多个文件。

目前,我计算了 一个文件的VARIANT QC 指标,例如 call_raten_het 等,如冰雹教程中所示(参考下图)

图片在这里

但是,现在我想为每个种族创建一个文件,然后计算VARIANT_QC指标。

我已经提到了这篇文章 和这篇文章,但不认为这能解决我的问题

如何在特定种族下的所有文件中执行此操作?

可以帮我解决这个问题吗?

有没有hail/python/R/other tools办法做到这一点?

4

1 回答 1

2

您可以使用Variant Transforms来实现此目标。Variant Transforms 是一种用于解析 VCF 文件并将其导入BigQuery的工具。它还可以执行反向转换:将存储在 BigQuery 表中的变体导出到 VCF 文件。所以基本上你需要:  multiple VCF files -> BigQuery -> Single VCF file

Variant Transforms 可以轻松处理多个输入文件。它还可以执行更复杂的逻辑,将多个文件中的相同变体合并到同一记录中。在您的变体全部加载到 BigQuery 后,您可以将它们导出到 VCF 文件

请注意,Variant Transforms为每个染色体创建一个单独的表以优化查询成本。您可以轻松地为每条染色体创建一个 VCF 文件,然后将它们合并在一起以创建一个。

如果您需要有关此任务的帮助,可以联系Variant Transforms 团队。

于 2020-09-08T16:03:23.003 回答