是否有任何指针可以让 Scalding 在 HDFS 上处理 LZO Protobuf 数据?
我正在尝试读取存储在二进制 Protobuf 中并使用 Scalding 在 LZO 中压缩的文件。我们可以使用 Elephantbird 来读取这些文件吗?任何指针将不胜感激!
我看过 LzoTraits 和 LzoProtobufScheme?但我不确定我应该如何使用它来读取数据?任何例子都会很棒!
是否有任何指针可以让 Scalding 在 HDFS 上处理 LZO Protobuf 数据?
我正在尝试读取存储在二进制 Protobuf 中并使用 Scalding 在 LZO 中压缩的文件。我们可以使用 Elephantbird 来读取这些文件吗?任何指针将不胜感激!
我看过 LzoTraits 和 LzoProtobufScheme?但我不确定我应该如何使用它来读取数据?任何例子都会很棒!
这是一个例子:
case class SomeProto() extends FixedPathSource("/my/greatData/*")
with LzoProtobuf[MyProtoClassHere] {
override def column = classOf[MyProtoClassHere]
}
您可以以类似的方式与其他类型的抽象基础源(如 TimePathedSource 或 MostRecentGoodSource)混合。如果你想使用 Hadoop-inside-cascading-local 技巧,你可以混合with LocalTapSource
使用(如果你不在级联本地模式下运行,你不需要这个)。