我正在使用 linux 命令行 lz4 来压缩 csv 文件。
例子:-
lz4 输入.csv
这导致 input.csv.lz4 作为输出
但是当我尝试使用以下命令在 spark shell 中读取 lz4 文件时,它总是导致空结果。
val output = sparkSession.read.format("com.databricks.spark.csv").option("delimiter", "\t").load("s3:///input.csv.lz4")
output.count res: Long = 0
我在某处发现 lz4 命令行工具可能与 spark 不兼容
https://forums.databricks.com/questions/7957/how-can-i-read-in-lz4-compressed-json-files.html
有没有人让它在火花中读取 lz4 文件。如果是,lz4 文件是如何创建的?