11

我有一个简单的胶水 etl 作业,由胶水工作流程触发。它从爬虫表中删除重复数据并将结果写回 S3 存储桶。作业成功完成。但是,spark 生成“$文件夹$”的空文件夹仍保留在 s3 中。它在层次结构中看起来不太好,并导致混乱。成功完成作业后,有什么方法可以配置火花或胶水上下文以隐藏/删除这些文件夹?

在此处输入图像描述

---------------------S3 映像 --------------------- 在此处输入图像描述

4

1 回答 1

12

好的,经过几天的测试,我终于找到了解决方案。在粘贴代码之前,让我总结一下我发现的...

  • 这些 $folder$ 是通过 Hadoop 创建的。Apache Hadoop 在 S3 存储桶中创建文件夹时会创建这些文件。Source1 它们实际上是目录标记,如路径 + /。来源 2
  • 要更改行为,您需要更改 Spark 上下文中的 Hadoop S3 写入配置。阅读这个这个这个
  • 在此处此处阅读有关 S3、S3a 和 S3n的信息
  • 感谢@stevel在这里的评论

现在的解决方案是在 Spark 上下文 Hadoop 中设置以下配置。

sc = SparkContext()
hadoop_conf = sc._jsc.hadoopConfiguration()
hadoop_conf.set("fs.s3.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem")

为避免创建 SUCCESS 文件,您还需要设置以下配置: hadoop_conf.set("mapreduce.fileoutputcommitter.marksuccessfuljobs", "false")

确保使用 S3 URI 写入 s3 存储桶。前任:

myDF.write.mode("overwrite").parquet('s3://XXX/YY',partitionBy['DDD'])
于 2021-01-15T11:43:46.173 回答