1

Nathan Marz 在他的“大数据”一书中描述了如何在HDFS中维护数据文件,以及如何使用在Map Reduce上运行的Pail库优化文件大小以尽可能接近原生 HDFS 块大小。

  1. 是否有可能在Google Cloud Storage中实现相同的结果?
  2. 我可以为此目的使用Google Cloud Dataflow代替 MapReduce 吗?
4

1 回答 1

2

谷歌云存储允许复合对象,让您将一个对象存储在多个部分中,然后将它们组合起来,一次限制为 32 个部分,总共 1024 个组成部分。API 中提供了此功能。

复合对象和并行上传 - Google Cloud Platform 开发人员指南

于 2015-05-20T15:41:16.793 回答