9

Apache Pig可以使用 PiggyBank 从 Hadoop 序列文件中加载数据SequenceFileLoader

REGISTER /home/hadoop/pig/contrib/piggybank/java/piggybank.jar;

DEFINE SequenceFileLoader org.apache.pig.piggybank.storage.SequenceFileLoader();

log = LOAD '/data/logs' USING SequenceFileLoader AS (...)

是否还有一个允许从 Pig 写入 Hadoop 序列文件的库?

4

2 回答 2

2

只需实现一个 StoreFunc 即可。

现在这是可能的,尽管一旦 Pig 0.7 发布后它会变得相当容易,因为它包括对加载/存储接口的完全重新设计。

“Hadoop 扩展包” Twitter即将github 上开源,包括用于生成基于 Google Protocol Buffers 的加载和存储函数的代码(基于相同的输入/输出格式——您已经拥有用于序列文件的那些,明显地)。如果您需要有关如何做一些不那么琐碎的事情的示例,请查看它。不过,它应该相当简单。

于 2010-03-12T12:24:13.437 回答
2

这似乎对我有用。https://github.com/kevinweil/elephant-bird/pull/73

于 2012-05-31T22:07:06.097 回答