amazon-redshift - 扫描外部表（S3 数据）时 Redshift Spectrum 中的成本控制

Question

Athena有一些默认服务限制，可以帮助限制S3 中大型数据湖上意外“失控”查询的成本。它们不是很好（基于~时间，而不是扫描的数据量），但它仍然很有帮助。

Redshift Spectrum怎么样？它提供的哪些机制可以轻松用于限制成本或降低在针对 S3 的单个失控查询中“意外”扫描过多数据的风险？解决这个问题的好方法是什么？

score 5 · Accepted Answer

有 2 个 Spectrum 指标可用：（Spectrum scan size查询扫描的 mb 数）和Spectrum scan row count（查询扫描的行数）。

您还可以使用Query execution time强制最长持续时间，但这将适用于所有查询类型，而不仅仅是 Spectrum。

请注意，这些是抽样指标。查询不会恰好在超出规则时中止，而是在下一个采样间隔中止。

如果您已经在集群上运行 Spectrum 查询，则可以通过使用我们的脚本wlm_qmr_rule_candidates生成候选规则来开始使用 QMR。生成的规则基于每个指标的第 99 个百分位。

1 回答 1