1

我想使用 Amazon 的 Elastic MapReduce 并在大约 2TB 的数据上运行一个 pig 脚本。问题是我必须使用 PigStorage,因为我需要在我的程序中使用 tagsource 选项。

我不确定,但我认为 PigStorage 仅从 HDFS 加载数据。我需要它从下面的 URL 读取数据,或者我需要直接从 URL 将数据加载到 HDFS:http: //dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/

有没有办法我可以做到这一点?

4

0 回答 0