1

我想知道 Pig 中的 PigStorage 如何将数据存储到 S3?它是否将输出保存到 HDFS 然后将它们复制过来?或者将每个减速器输出保存到每个减速器的本地目录,然后将它们复制到 S3?我想这不能流式传输,因为 S3 只支持放置文件或目录?

4

1 回答 1

2

我的理解是每个reducer都在本地写入输出,然后将输出复制到S3。

正如您所说的那样 - 由于 S3 不支持流式传输,因此减速器只能在完成处理后复制其输出。

于 2012-11-30T10:20:38.857 回答