Nathan Marz 在他的“大数据”一书中描述了如何在HDFS中维护数据文件,以及如何使用在Map Reduce上运行的Pail库优化文件大小以尽可能接近原生 HDFS 块大小。
- 是否有可能在Google Cloud Storage中实现相同的结果?
- 我可以为此目的使用Google Cloud Dataflow代替 MapReduce 吗?
Nathan Marz 在他的“大数据”一书中描述了如何在HDFS中维护数据文件,以及如何使用在Map Reduce上运行的Pail库优化文件大小以尽可能接近原生 HDFS 块大小。