1

我们正在使用 Amazon EMR 和 commoncrawl 来执行爬取。EMR 以类似二进制的格式将输出写入 Amazon S3。我们想以原始文本格式将其复制到本地。

我们怎样才能做到这一点?最好的方法是什么?

通常我们可以使用 hadoop copyToLocal 但我们不能直接访问 hadoop 并且数据在 S3 上。

4

0 回答 0