我试图让 spark 从 s3 读取未压缩的节俭文件。到目前为止,它还没有工作。
- 数据作为未压缩的 thrift 文件加载到 s3 中。来源是 AWS Kinesis Firehose。
- 我有一个工具可以毫无问题地反序列化文件,所以我知道节俭的序列化/反序列化是有效的。
- 在火花中,我使用 newAPIHadoopFile
- 使用大象鸟的 LzoThriftBlockInputFormat,我能够成功读取 lzo 压缩的节俭文件
- 我不知道应该使用什么 InputFormat 来读取未压缩的节俭文件。
那里的任何输入格式都可能吗?我必须实现自己的吗?