1

我正在使用 Google BigQuery,它提供了很少的公共示例表。其中之一是维基百科修订历史 [publicdata:samples.wikipedia]

出于某些测试目的,我想将其导出并保存到 Google Cloud Storage。

但是,如果我在 Googel BigQuery 中运行导出作业,它会运行 5 个小时并且作业失败:(

唯一返回的消息是 错误:后端错误。作业中止。

可能是因为数据大小在 35GB 左右。所有其他提供的样本都小于 25 GB,我已成功将它们导出到 Google Cloud Storage。

有谁知道问题是什么以及解决方法?

4

1 回答 1

1

看起来导出作业超时,会在 2 小时后杀死它们(然后重试两次)。因为我们目前按顺序处理导出(即我们一次读取并转换一行数据并写出到单个文件),如果结果很大,处理可能需要很长时间。

如果您提供文件 glob 模式(例如gs://foo/bar*)作为目标路径,BigQuery 可以将导出拆分为多个部分并并行执行,从而减少提取时间。

最近的变化也将使出口过程更快。

于 2012-07-09T18:28:25.310 回答