0

我正在尝试在我的 BAM 文件上运行 DeepVariant 以生成 VCF。我有以下问题:

1 - 对齐在 GRCh38 中,我应该使用哪个模型。我可以使用标准的全外显子组序列模型吗?('gs://deepvariant/models/DeepVariant/0.7.0/DeepVariant-inception_v3-0.7.0+data-wes_standard')

2 - 使用哪个 BED 文件来指定外显子组区域?有标准的吗?我在这里找到了一个我现在正在使用的(“CDS-cannonical.bed”): https ://github.com/AstraZeneca-NGS/reference_data/tree/master/hg38/bed

3 - 我使用的是 Verily GRCh38 基因组,谷歌基因组学上是否有标准的 GRCh38 比对。这是我拥有的:--ref gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa \

我的脚本设置如下,如果有意义,请告诉我:

#!/bin/bash
set -euo pipefail
# Set common settings.
PROJECT_ID=valis-194104
OUTPUT_BUCKET=gs://canis/CNR-data
STAGING_FOLDER_NAME=deep_variant_files
OUTPUT_FILE_NAME=TLE_a_001.vcf
# Model for calling whole exome sequencing data.
MODEL=gs://deepvariant/models/DeepVariant/0.7.0/DeepVariant-inception_v3-0.7.0+data-wes_standard
IMAGE_VERSION=0.7.0
DOCKER_IMAGE=gcr.io/deepvariant-docker/deepvariant:"${IMAGE_VERSION}"
COMMAND="/opt/deepvariant_runner/bin/gcp_deepvariant_runner \
  --project ${PROJECT_ID} \
  --zones us-west1-b \
  --docker_image ${DOCKER_IMAGE} \
  --outfile ${OUTPUT_BUCKET}/${OUTPUT_FILE_NAME} \
  --staging ${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME} \
  --model ${MODEL} \
  --regions gs://canis/CNR-data/CDS-canonical.bed \
  --bam gs://canis/CNR-data/TLE_a_001_R_2014_09_17_16_35_30_user_WAL-19-TLE_17_09_2014_Auto_user_WAL-19-TLE_17_09_2014_57.bam \
  --ref gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa  \
  --gcsfuse"
# Run the pipeline.
gcloud alpha genomics pipelines run \
    --project "${PROJECT_ID}" \
    --service-account-scopes="https://www.googleapis.com/auth/cloud-platform" \
    --logging "${OUTPUT_BUCKET}/${STAGING_FOLDER_NAME}/runner_logs_$(date +%Y%m%d_%H%M%S).log" \
    --zones us-west1-b \
    --docker-image gcr.io/deepvariant-docker/deepvariant_runner:"${IMAGE_VERSION}" \
    --command-line "${COMMAND}"

编辑:

我尝试添加使用 samtools 生成的 .bam.bai 文件(bam 索引)

我仍然收到一个错误:

  Traceback (most recent call last):
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 862, in <module>
      run()
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 845, in run
      _run_make_examples(pipeline_args)
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 340, in _run_make_examples
      _wait_for_results(threads, results)
    File "/opt/deepvariant_runner/src/gcp_deepvariant_runner.py", line 352, in _wait_for_results
      result.get()
    File "/usr/lib/python2.7/multiprocessing/pool.py", line 572, in get
      raise self._value
  RuntimeError: Job failed with error "run": operation "projects/valis-194104/operations/13939489157244551677" failed: executing pipeline: Execution failed: action 5: unexpected exit status 1 was not ignored (reason: FAILED_PRECONDITION)
details:
4

1 回答 1

1

1- 该模型适用于任何版本的参考基因组。您确实需要确保您的 BAM 文件与您提供的参考基因组匹配。

2- 这取决于您的外显子 BAM 文件来自哪里以及相应的捕获区域 BED 是什么。有时samtools view -H在 BAM 文件上运行会告诉您使用哪个捕获区域来生成它。

3-我只是快速浏览了一下:它应该可以工作。有一些常见的故障模式我们希望在未来变得更加健壮:例如,我认为目前假设您需要在同一目录下有一个名为 *.bam.bai 的相应索引 BAI 文件。最安全的做法是提供一个--bai指向您的 BAI 文件的标志(如https://cloud.google.com/genomics/docs/tutorials/deepvariant中的示例)。同样,如果找不到 FASTA 文件的索引文件,此管道将失败。似乎 gs://genomics-public-data/references/GRCh38_Verily/GRCh38_Verily_v1.genome.fa.fai 存在,所以应该涵盖一个。

如果您最终遇到任何问题,请告诉我们。我们希望提高 DeepVariant 和 Google Cloud runner 的可用性,因此您的反馈对我们非常有价值。

将来,也可以随时使用我们的 GitHub 问题进行任何问题或讨论。我们的团队密切关注那里的所有问题: https ://github.com/google/deepvariant/issues

于 2018-11-06T19:28:16.540 回答