1

我们遇到了由 Java 代码生成的文件的问题,这些文件是在本地编写的,然后由数据管道复制到 S3。错误提到文件大小。

我原以为如果需要分段上传,那么管道会解决这个问题。我想知道是否有一种配置管道的方法,以便它确实使用分段上传。因为否则当前与 S3 无关的 Java 代码必须直接写入 S3,或者必须按照以前的方式执行,然后使用分段上传——事实上,我认为代码只会直接写入 S3 而不必担心上传。

谁能告诉我 Pipelines 是否可以使用分段上传,如果不能,您能否建议正确的方法是让程序直接写入 S3 还是继续写入本地存储,然后可能在同一个内部调用一个单独的程序将执行分段上传的管道?

4

2 回答 2

1

基于 AWS 支持的答案是,确实 5 个演出文件不能直接上传到 S3。目前,数据管道还没有办法说,“你正在尝试上传一个大文件,所以我会做一些特别的事情来处理这个问题。” 它只是失败了。

这在未来可能会改变。

于 2015-02-01T09:10:32.070 回答
0

Data Pipeline CopyActivity 不支持大于 4GB 的文件。 http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-copyactivity.html

这低于 S3 对每个文件部分放置的 5GB 限制。

您需要编写自己的脚本来包装 AWS CLI 或 S3cmd(较旧)。该脚本可以作为 shell 活动执行。

直接写入 S3 可能是一个问题,因为 S3 不支持追加操作 - 除非您可以以某种方式在文件夹中写入多个较小的对象。

于 2015-01-31T14:56:16.137 回答