scala - EC2 上的 Spark：如何读取 LZO 压缩的镶木地板文件

翻译自：https://stackoverflow.com/questions/40552115 2016-11-11T16:20:55.623

503 次

我想阅读一个用 lzo 算法压缩的镶木地板文件。让我们假设运行一个 spark-shell（在基于 ec2 的 spark 集群中，使用 ec2-script 构建）并将以下代码放入其中：

val hadoopConf = sc.hadoopConfiguration
hadoopConf.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
hadoopConf.set("fs.s3.awsAccessKeyId", "myaccesskey")
hadoopConf.set("fs.s3.awsSecretAccessKey", "mysecretaccesskey")

val parquetFile = spark.read.parquet("s3://path/to/my/parquet/lzo/file")
parquetFile.first()

我收到此异常：

Caused by: java.lang.ClassNotFoundException: Class com.hadoop.compression.lzo.LzoCodec not found.

我也遵循了本指南，但错误仍然相同。建议？

scala - EC2 上的 Spark：如何读取 LZO 压缩的镶木地板文件

0 回答 0

Related

Reference