4

我在 HDFS 中有 LZ4 压缩数据,我正在尝试在 Apache Spark 中将其解压缩为 RDD。据我所知,JavaSparkContext从 HDFS 读取数据的唯一方法是textFile只读取 HDFS 中的数据。我遇到过有关的文章,CompressionCodec但它们都解释了如何将输出压缩到 HDFS,而我需要解压缩 HDFS 上已有的内容。

我是 Spark 的新手,所以如果我遗漏了一些明显的东西或者我的概念理解不正确,我会提前道歉,但如果有人能指出我正确的方向,那就太好了。

4

1 回答 1

1

Spark 1.1.0支持通过sc.textFile. 我已经通过使用支持 LZ4(在我的情况下为 2.4.1)的 Hadoop 构建的 Spark 来实现它

之后,我为我的平台构建了本地库,如Hadoop 文档--driver-library-path中所述,并通过选项将它们链接到 Spark 。

没有链接有native lz4 library not loaded例外。

根据您使用的 Hadoop 发行版,构建本机库的步骤可能是可选的。

于 2014-11-21T15:19:41.497 回答