问题标签 [google-genomics]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
196 浏览

google-genomics - TCGA 和 GTEX RNA 的 TPM

如何将 TCGA RNA normalized_count 转换为为 GTEx 计算的 TPM 值。目前,GTEx 上的 TPM 值远小于 TCGA 的值。

我正在查看 BigQuery 上的表是:

谢谢,埃拉兰

0 投票
1 回答
54 浏览

google-genomics - gcloud.alpha.genomics.pipelines.run - 没有这样的文件或目录:'wdl_pipeline.yaml'

我正在尝试在谷歌云中运行 GATK 最佳实践管道并获得以下错误

这是 gcloud 命令:

错误:(gcloud.alpha.genomics.pipelines.run)无法读取文件 [wdl_pipeline.yaml]:[Errno 2] 没有这样的文件或目录:'wdl_pipeline.yaml'

0 投票
1 回答
31 浏览

gcloud - 基因组学管道上的抢占式机器

我尝试使用 v2alpha1 JSON 映射中的抢占标志使用基因组管道运行数千台机器。

即使这些机器是可抢占式的——许多工作人员甚至还没有启动就用完了永久磁盘空间。

gcloud alpha 基因组学操作描述 $operation_id

我看到描述:工人释放

我希望只有在可抢占实例可用时才分配工作人员。看起来分配的工作人员占用了磁盘空间而没有占用 cpu 资源。

还有什么我应该做的 - 在设置管道 json 时。

https://cloud.google.com/genomics/reference/rest/Shared.Types/Metadata#Pipeline

0 投票
1 回答
74 浏览

google-cloud-platform - GRCh37 WGS 上的 Google DeepVariant 管道,外显子组模型未完成

我有一个 hg19 对齐的 BAM,我希望为其生成一个 DeepVariant VCF。我使用 samtools 提取标题并确保 hg19 参考 FASTA 索引包含相同的重叠群和位置。我最初的目标是在这个 WGS BAM 上只运行一个外显子组模型,使用以下模型和区域:

MODEL=gs://deepvariant/models/DeepVariant/0.7.2/DeepVariant-inception_v3-0.7.2+data-wes_standard

--regions gs://deepvariant/exome-case-study-testdata/refseq.coding_exons.b37.extended50.bed

不幸的是,脚本抗议说 BED 和 BAM / FASTA 参考之间的匹配为 0。我决定运行相同的外显子组模型,但没有指定区域。这是我的脚本:

BAM 有对应的 BAI,FA 有 FAI 文件。DeepVariant QuickStart 表明这些设置将在 1-2 小时内生成 VCF,但我的管道现在已经运行了 7 多个小时。暂存文件夹现在有一个 call_variants,其中包含 32 个 GZ 文件中的 31 个。Genomics 管道视图显示了 11 个运行 call_variant 的管道,因此我怀疑它正在处理最后一个文件,准备将所有文件合并到一个 VCF 中。

我只是不明白为什么要花这么长时间。我故意排除了抢占式实例,并且文档说外显子组管道应该只需要 20 分钟(WGS 需要 1-2 小时)。为什么会这么慢?

0 投票
2 回答
109 浏览

google-cloud-platform - 默认附加 500 GB 永久磁盘

我正在尝试使用 Nextflow 在 GCP 上运行工作流。问题是,每当创建一个实例来运行一个进程时,它都会连接两个磁盘。第一个启动盘(默认 10GB)和一个额外的 'google-pipelines-worker' 磁盘(默认 500GB)。当我并行运行多个进程时,会创建多个 VM,每个 VM 都附加了一个 500GB 的附加磁盘。有没有办法自定义 500GB 默认值?

nextflow.config

主文件

提供的代码只是一个示例。基本上,这将创建一个附加了 500GB 标准永久性磁盘的 VM 实例。

0 投票
3 回答
356 浏览

bash - 使用 awk 打印标题名称和子字符串

我尝试使用此代码打印基因名称的标题,然后根据其位置提取子字符串,但它不起作用

输入文件

法斯塔

这是我错误的输出文件

输出应如下所示:

0 投票
2 回答
105 浏览

json - gcloud beta lifesciences,JSON 管道文件而不是选项

我正在尝试运行 gcloud beta lifesciences,因为不推荐使用基因组 API。发生了很多变化,基因组学 API 与生命科学 API。

我使用 beta 生命科学在谷歌云中运行了我的分析步骤之一。这是我发现的。(1)通配符在命令行选项中不起作用(2)在命令行选项中设置目标目录并不容易,我使用env-var进行复制。

我现在正在尝试将命令行选项转换为 JSON 格式的管道文件,但在谷歌云中的帮助页面并不容易理解。您知道如何将以下选项转换为 JSON 文件,以便我可以使用更简单的选项运行它吗?

我在基因组学 API 中使用了 YAML 格式的管道文件,但 beta lifescienes 完全不同。

0 投票
1 回答
97 浏览

r - 将多列与其他列进行比较的 T 检验

在此处输入图像描述

我对 R 比较陌生,需要一些数据分析方面的帮助。在附表中,Master Protein Accession 列由一系列蛋白质组成,这些蛋白质在对照(C)、脱水(D)和再水合(R)三种条件下在皮层(C)中增加或减少。每个条件有5个样本;CC(1,2,3,4 和 5),CD(1,2,3,4 和 5)和 CR(1,2,3,4 和 5)。我需要进行 t 检验,以分别比较所有蛋白质的 Cortex 对照(CC1、2、3、4 和 5)样本与 Cortex 脱水(CD1、2、3、4 和 5)样本。这样当我运行代码时,第 1 行 CC1 值对第 1 行 CD 1 值进行 t 检验,第 2 行 CC1 值对第 2 行 CD 1 值进行 t 检验,依此类推。

我试过了

但它给了我

match.fun(FUN) 中的错误:缺少参数“FUN”,没有默认值