file-upload - 从 Apache Spark 分段上传到 Amazon S3

Question

在将数据保存到 Amazon S3 时，如何使 Apache Spark 使用分段上传。Spark 使用RDD.saveAs...File方法写入数据。当目标以s3n://Spark 启动时，会自动使用 JetS3Tt 进行上传，但对于大于 5G 的文件，此操作会失败。需要使用分段上传将大文件上传到 S3，这应该也有利于小文件。JetS3Tt 支持分段上传MultipartUtils，但 Spark 在默认配置中不使用此功能。有没有办法让它使用这个功能。

score 2 · Accepted Answer

这是s3n的限制，您可以使用新的s3a协议访问 S3 中的文件。s3a 基于 aws-adk 库并支持包括分段上传在内的许多功能。此链接中的更多详细信息：

score 0 · Accepted Answer

s3n 似乎处于弃用路径。

从他们的文档

Amazon EMR 使用 S3 Native FileSystem 和 URI 方案 s3n。虽然这仍然有效，但我们建议您使用 s3 URI 方案以获得最佳性能、安全性和可靠性

file-upload - 从 Apache Spark 分段上传到 Amazon S3

2 回答 2

Related

Reference