4

我试图让 spark 从 s3 读取未压缩的节俭文件。到目前为止,它还没有工作。

  • 数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
  • 我有一个工具可以毫无问题地反序列化文件,所以我知道节俭的序列化/反序列化是有效的。
  • 在火花中,我使用 newAPIHadoopFile
  • 使用大象鸟的 LzoThriftBlockInputFormat,我能够成功读取 lzo 压缩的节俭文件
  • 我不知道应该使用什么 InputFormat 来读取未压缩的节俭文件。

那里的任何输入格式都可能吗?我必须实现自己的吗?

4

1 回答 1

1

我最终编写了自己的自定义节俭反序列化器。

需要实现自定义 InputFormat 和自定义 RecordReader。仍然对某些库中不存在此类类感到惊讶。这两个类已经过测试并且可以工作,但是由于我在解决这个问题后不久就停止了该项目的工作,因此没有清理代码。

https://github.com/mklosi/thrift-deserializer

于 2017-03-15T20:14:09.070 回答