apache-pig - 如何将数据从 url 加载到 .gz 文件到 Pig 中？

翻译自：https://stackoverflow.com/questions/18379114 2013-08-22T11:27:40.173

313 次

我想使用 Amazon 的 Elastic MapReduce 并在大约 2TB 的数据上运行一个 pig 脚本。问题是我必须使用 PigStorage，因为我需要在我的程序中使用 tagsource 选项。

我不确定，但我认为 PigStorage 仅从 HDFS 加载数据。我需要它从下面的 URL 读取数据，或者我需要直接从 URL 将数据加载到 HDFS：http: //dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/

有没有办法我可以做到这一点？

0 回答 0