go - 如何在 S3 中保存数据流？aws-sdk-go 示例不起作用？

Question

我正在尝试将给定的数据流保存到与 S3 兼容的存储中。在流结束之前大小是未知的，可以从 5MB 到 ~500GB 不等。

我尝试了不同的可能性，但没有找到比自己实现分片更好的解决方案。我最好的猜测是用我的流填充一个固定大小的缓冲区并将其写入 S3。有更好的解决方案吗？也许这是一种对我来说透明的方式，而不会将整个流写入内存？

aws-sdk-go 自述文件有一个示例程序，它从标准输入获取数据并将其写入 S3：https ://github.com/aws/aws-sdk-go#using-the-go-sdk

当我尝试使用管道传输数据时，出现|以下错误： failed to upload object, SerializationError: failed to compute request body size caused by: seek /dev/stdin: illegal seek 我做错了什么还是示例没有按我预期的那样工作？

我虽然尝试了 minio-go，使用PutObject()或client.PutObjectStreaming()。这是功能性的，但消耗的内存与要存储的数据一样多。

有更好的解决方案吗？
是否有一个可以将任意数据传输到 S3 的小示例程序？

score 10 · Accepted Answer

您可以使用 sdk 的Uploader来处理未知大小的上传，但您需要os.Stdin通过将其包装到io.Reader. 这是因为Uploader，虽然它只需要 aio.Reader作为输入主体，但在底层它会检查输入主体是否也是 a Seeker，如果是，它会调用Seek它。而且由于os.Stdin它只是一个*os.File实现接口的Seeker接口，默认情况下，你会得到与PutObjectWithContext.

还允许您以可以配置大小的Uploader块上传数据，您还可以配置应该同时上传多少块。

这是链接示例的修改版本，去掉了可以保持不变的代码。

package main

import (
    // ...
    "io"
    "github.com/aws/aws-sdk-go/service/s3/s3manager"
)

type reader struct {
    r io.Reader
}

func (r *reader) Read(p []byte) (int, error) {
    return r.r.Read(p)
}

func main() {
    // ... parse flags

    sess := session.Must(session.NewSession())
    uploader := s3manager.NewUploader(sess, func(u *s3manager.Uploader) {
        u.PartSize = 20 << 20 // 20MB
        // ... more configuration
    })

    // ... context stuff

    _, err := uploader.UploadWithContext(ctx, &s3manager.UploadInput{
        Bucket: aws.String(bucket),
        Key:    aws.String(key),
        Body:   &reader{os.Stdin},
    })

    // ... handle error
}

至于这是否是比minio-go我不知道的更好的解决方案，您必须自己测试。

go - 如何在 S3 中保存数据流？aws-sdk-go 示例不起作用？

1 回答 1

Related

Reference