我有来自特定种族的 VCF 文件列表,例如美洲印第安人、中国人、欧洲人等
在每个种族下,我有大约 100 多个文件。
目前,我计算了 一个文件的VARIANT QC
指标,例如 call_rate
, n_het
等,如冰雹教程中所示(参考下图)
但是,现在我想为每个种族创建一个文件,然后计算VARIANT_QC
指标。
如何在特定种族下的所有文件中执行此操作?
可以帮我解决这个问题吗?
有没有hail/python/R/other tools
办法做到这一点?
我有来自特定种族的 VCF 文件列表,例如美洲印第安人、中国人、欧洲人等
在每个种族下,我有大约 100 多个文件。
目前,我计算了 一个文件的VARIANT QC
指标,例如 call_rate
, n_het
等,如冰雹教程中所示(参考下图)
但是,现在我想为每个种族创建一个文件,然后计算VARIANT_QC
指标。
如何在特定种族下的所有文件中执行此操作?
可以帮我解决这个问题吗?
有没有hail/python/R/other tools
办法做到这一点?
您可以使用Variant Transforms来实现此目标。Variant Transforms 是一种用于解析 VCF 文件并将其导入BigQuery的工具。它还可以执行反向转换:将存储在 BigQuery 表中的变体导出到 VCF 文件。所以基本上你需要: multiple VCF files -> BigQuery -> Single VCF file
Variant Transforms 可以轻松处理多个输入文件。它还可以执行更复杂的逻辑,将多个文件中的相同变体合并到同一记录中。在您的变体全部加载到 BigQuery 后,您可以将它们导出到 VCF 文件。
请注意,Variant Transforms为每个染色体创建一个单独的表以优化查询成本。您可以轻松地为每条染色体创建一个 VCF 文件,然后将它们合并在一起以创建一个。
如果您需要有关此任务的帮助,可以联系Variant Transforms 团队。