我有一些使用 lzo 压缩的 tsv 格式的数据。现在,我想在 java spark 程序中使用这些数据。
目前,我可以解压缩文件,然后使用 Java 将它们作为文本文件导入
SparkSession spark = SparkSession.builder()
.master("local[2]")
.appName("MyName")
.getOrCreate();
Dataset<Row> input = spark.read()
.option("sep", "\t")
.csv(args[0]);
input.show(5); // visually check if data were imported correctly
我在第一个参数中传递了解压缩文件的路径。如果我将 lzo 文件作为参数传递,则 show 的结果是难以辨认的垃圾。
有没有办法让它工作?我使用 IntelliJ 作为 IDE,并且项目是在 Maven 中设置的。