0

有没有一种方法可以将我们的 Apache Crunch 输出写入 S3 存储桶。在 crunch pipeline write 中有一个方法,它以 Target 作为参数。有没有办法将 S3 添加为目标来编写 crunch 方法。

4

1 回答 1

1

您不能只在 PCollection 上使用 write 方法并将其提供给您的 S3 位置吗?

PCollection<String> items = ...;
items.write(To.avroFile("s3://bucket/prefix");
pipeline.done();

这基本上就是我们的做法,但是我们在 EMR 中运行。为了从我们的本地集群迁移数据,我们使用 Hadoop dist-cp 命令。

于 2021-03-12T15:40:51.770 回答