hadoop - 在 Spark 中解压 LZ4 压缩数据

Question

我在 HDFS 中有 LZ4 压缩数据，我正在尝试在 Apache Spark 中将其解压缩为 RDD。据我所知，JavaSparkContext从 HDFS 读取数据的唯一方法是textFile只读取 HDFS 中的数据。我遇到过有关的文章，CompressionCodec但它们都解释了如何将输出压缩到 HDFS，而我需要解压缩 HDFS 上已有的内容。

我是 Spark 的新手，所以如果我遗漏了一些明显的东西或者我的概念理解不正确，我会提前道歉，但如果有人能指出我正确的方向，那就太好了。

score 1 · Accepted Answer

Spark 1.1.0支持通过sc.textFile. 我已经通过使用支持 LZ4（在我的情况下为 2.4.1）的 Hadoop 构建的 Spark 来实现它

之后，我为我的平台构建了本地库，如Hadoop 文档--driver-library-path中所述，并通过选项将它们链接到 Spark 。

没有链接有native lz4 library not loaded例外。

根据您使用的 Hadoop 发行版，构建本机库的步骤可能是可选的。

hadoop - 在 Spark 中解压 LZ4 压缩数据

1 回答 1

Related

Reference