4

文件名不以结尾,.gz我无法将它们改回来,因为它们与其他程序共享。

file1.log.gz.processed只是一个csv文件。但我如何阅读它pyspark,最好是pyspark.sql

我试图指定格式和压缩,但找不到正确的键/值。例如,

sqlContext.load(fn, format='gz')

没用。虽然 Spark 可以处理gz文件,但它似乎是根据文件名确定编解码器。例如,

sc.textFile(fn)

如果文件以.gz但不是我的情况结束,则可以使用。

如何指示 Spark 使用正确的编解码器?谢谢!

4

1 回答 1

1

您不应该以这种方式使用 .load,因为它已被弃用(从 1.4.0 版开始)。你应该使用read.format(source).schema(schema).options(options).load().

sql_context.read.format("com.databricks.spark.csv")
.options(
  header=... # e.g., "true"
  inferSchema=...)
.load(file_path + ".gz")
于 2015-12-07T10:24:50.210 回答