apache-spark - 在 spark 中读取未压缩的 thrift 文件

Question

我试图让 spark 从 s3 读取未压缩的节俭文件。到目前为止，它还没有工作。

那里的任何输入格式都可能吗？我必须实现自己的吗？

score 1 · Accepted Answer

我最终编写了自己的自定义节俭反序列化器。

需要实现自定义 InputFormat 和自定义 RecordReader。仍然对某些库中不存在此类类感到惊讶。这两个类已经过测试并且可以工作，但是由于我在解决这个问题后不久就停止了该项目的工作，因此没有清理代码。

1 回答 1