我想知道是否有 UDF 或其他东西可以以 RC 格式以分区方式存储我的数据。我知道有,org.apache.pig.piggybank.storage.MultiStorage
但它只适用于某些压缩格式。我想以 RC 格式存储我的数据,但使用 MultiStorage 提供的相同分区存储结构。
谢谢,伊姆蒂亚兹
我想知道是否有 UDF 或其他东西可以以 RC 格式以分区方式存储我的数据。我知道有,org.apache.pig.piggybank.storage.MultiStorage
但它只适用于某些压缩格式。我想以 RC 格式存储我的数据,但使用 MultiStorage 提供的相同分区存储结构。
谢谢,伊姆蒂亚兹
在存钱罐或其他替代方案中都没有这样的解决方案。我遇到过类似的问题。但由于一些其他要求而放弃了实现。唯一可用的解决方案是扩展 MultiStorage udf 以提供 RC 存储格式。
Twitter 已经开源了它的 RC 文件存储。你可以从中得到帮助。 http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/RCFilePigStorage.java