0

我目前正在使用 Google BigQuery 平台上传许多数据(~ > 6 Go),并将它们作为 Tableau Desktop Software 的数据源。目前,我平均需要一个小时来上传 12 个 CSV 格式的表格(总共 6 个 Go),未压缩,使用 Google API 的 python 脚本。谷歌文档指定“如果加载速度对您的应用程序很重要并且您有大量带宽来加载数据,请保持文件未压缩。”。我怎样才能优化这个过程?应该是压缩我的 csv 文件以提高上传速度的解决方案吗?我也考虑使用谷歌云存储,但我希望我的问题会是一样的?我需要减少上传数据文件所需的时间,但我找不到很好的解决方案。

提前致谢。

4

1 回答 1

1

压缩您的输入数据将减少上传数据的时间,但会增加您的数据上传后执行加载作业的时间(压缩会限制我们并行处理您的数据的能力)。由于听起来您更喜欢优化上传速度,因此我建议您压缩数据。

请注意,如果您愿意将数据分成几个块并分别压缩它们,您可以获得两全其美的优势——快速上传和并行加载作业。

上传到 Google Cloud Storage 应该有相同的权衡,除了一个优点:您可以在单个加载作业中指定多个源文件。如果您按照上面的建议对数据进行预分片,这会很方便,因为这样您就可以运行一个加载作业,将多个压缩输入文件指定为源文件。

于 2013-05-16T05:16:29.200 回答