我在 S3 中有大量文件(约 150gb 的文本文件),文件夹结构相当简单。有许多文件夹,每个文件夹中有几个 Gb 的文件。我想使用 boto3 迭代 s3 的内容并下载每个文件,在 python 中对该文件进行操作(不需要重新上传/更改 s3 中的原始文件),然后继续下一个文件。困难的部分是存储桶中还有其他我想忽略的对象,例如存在的一些文件夹和 zip 文件。
我很幸运地列出了 s3 的内容,但我不知道如何在 python 中访问文件的名称
for object in s3.Bucket('name_of_bucket').objects.all():
print(object)
打印对象给出了文件的名称,但我不知道如何在 python 中访问对象的内容。对象是boto3.resources.factory.s3.ObjectSummary
对象。
我正在寻求有关如何使用此方法或完全不同的方法的帮助。
先感谢您