我在 HDFS 中有 LZ4 压缩数据,我正在尝试在 Apache Spark 中将其解压缩为 RDD。据我所知,JavaSparkContext
从 HDFS 读取数据的唯一方法是textFile
只读取 HDFS 中的数据。我遇到过有关的文章,CompressionCodec
但它们都解释了如何将输出压缩到 HDFS,而我需要解压缩 HDFS 上已有的内容。
我是 Spark 的新手,所以如果我遗漏了一些明显的东西或者我的概念理解不正确,我会提前道歉,但如果有人能指出我正确的方向,那就太好了。