在将数据保存到 Amazon S3 时,如何使 Apache Spark 使用分段上传。Spark 使用RDD.saveAs...File
方法写入数据。当目标以s3n://
Spark 启动时,会自动使用 JetS3Tt 进行上传,但对于大于 5G 的文件,此操作会失败。需要使用分段上传将大文件上传到 S3,这应该也有利于小文件。JetS3Tt 支持分段上传MultipartUtils
,但 Spark 在默认配置中不使用此功能。有没有办法让它使用这个功能。
问问题
2514 次