文件名不以结尾,.gz
我无法将它们改回来,因为它们与其他程序共享。
file1.log.gz.processed
只是一个csv
文件。但我如何阅读它pyspark
,最好是pyspark.sql
?
我试图指定格式和压缩,但找不到正确的键/值。例如,
sqlContext.load(fn, format='gz')
没用。虽然 Spark 可以处理gz
文件,但它似乎是根据文件名确定编解码器。例如,
sc.textFile(fn)
如果文件以.gz
但不是我的情况结束,则可以使用。
如何指示 Spark 使用正确的编解码器?谢谢!