apache-spark - 如何在 pyspark 中加载 gzip 压缩的 csv 文件？

Question

文件名不以结尾，.gz我无法将它们改回来，因为它们与其他程序共享。

file1.log.gz.processed只是一个csv文件。但我如何阅读它pyspark，最好是pyspark.sql？

我试图指定格式和压缩，但找不到正确的键/值。例如，

sqlContext.load(fn, format='gz')

没用。虽然 Spark 可以处理gz文件，但它似乎是根据文件名确定编解码器。例如，

sc.textFile(fn)

如果文件以.gz但不是我的情况结束，则可以使用。

如何指示 Spark 使用正确的编解码器？谢谢！

score 1 · Accepted Answer

您不应该以这种方式使用 .load，因为它已被弃用（从 1.4.0 版开始）。你应该使用read.format(source).schema(schema).options(options).load().

sql_context.read.format("com.databricks.spark.csv")
.options(
  header=... # e.g., "true"
  inferSchema=...)
.load(file_path + ".gz")

1 回答 1