hadoop - 从 Apache Pig 将数据存储到 SequenceFile

Question

Apache Pig可以使用 PiggyBank 从 Hadoop 序列文件中加载数据SequenceFileLoader：

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

是否还有一个允许从 Pig 写入 Hadoop 序列文件的库？

score 2 · Accepted Answer

只需实现一个 StoreFunc 即可。

现在这是可能的，尽管一旦 Pig 0.7 发布后它会变得相当容易，因为它包括对加载/存储接口的完全重新设计。

“Hadoop 扩展包” Twitter即将在github 上开源，包括用于生成基于 Google Protocol Buffers 的加载和存储函数的代码（基于相同的输入/输出格式——您已经拥有用于序列文件的那些，明显地）。如果您需要有关如何做一些不那么琐碎的事情的示例，请查看它。不过，它应该相当简单。

score 2 · Accepted Answer

2

这似乎对我有用。https://github.com/kevinweil/elephant-bird/pull/73

于 2012-05-31T22:07:06.097 回答

hadoop - 从 Apache Pig 将数据存储到 SequenceFile

2 回答 2

Related

Reference