5

在将数据保存到 Amazon S3 时,如何使 Apache Spark 使用分段上传。Spark 使用RDD.saveAs...File方法写入数据。当目标以s3n://Spark 启动时,会自动使用 JetS3Tt 进行上传,但对于大于 5G 的文件,此操作会失败。需要使用分段上传将大文件上传到 S3,这应该也有利于小文件。JetS3Tt 支持分段上传MultipartUtils,但 Spark 在默认配置中不使用此功能。有没有办法让它使用这个功能。

4

2 回答 2

2

这是s3n的限制,您可以使用新的s3a协议访问 S3 中的文件。s3a 基于 aws-adk 库并支持包括分段上传在内的许多功能。此链接中的更多详细信息:

于 2015-06-23T07:27:00.130 回答
0

s3n 似乎处于弃用路径。

从他们的文档

Amazon EMR 使用 S3 Native FileSystem 和 URI 方案 s3n。虽然这仍然有效,但我们建议您使用 s3 URI 方案以获得最佳性能、安全性和可靠性

于 2014-12-03T06:09:37.063 回答