使用 Scala,您现在可能想要使用 Amazon 的Java 官方 SDK,它提供了以下AmazonS3::listObjects
方法:
import scala.collection.JavaConverters._
import com.amazonaws.services.s3.model.ObjectListing
def keys(bucket: String): List[String] = nextBatch(s3Client.listObjects(bucket))
private def nextBatch(listing: ObjectListing, keys: List[String] = Nil): List[String] = {
val pageKeys = listing.getObjectSummaries.asScala.map(_.getKey).toList
if (listing.isTruncated)
nextBatch(s3Client.listNextBatchOfObjects(listing), pageKeys ::: keys)
else
pageKeys ::: keys
}
注意对象的递归ObjectListing
:
由于存储桶中的键列表是按批次完成的(使用此处记录的分页系统),因此最多只能返回前 1000 个键s3Client.listObjects(bucket).getObjectSummaries.asScala.map(_.getKey)
。
因此,通过请求下一页键来获取桶中所有键的递归调用 whileObjectListing::isTruncated
为真。
如果您的存储桶很大,请注意内存问题。
s3Client
可以这样构建:
import com.amazonaws.services.s3.{AmazonS3, AmazonS3ClientBuilder}
import com.amazonaws.auth.{AWSStaticCredentialsProvider, BasicAWSCredentials}
val credentials = new BasicAWSCredentials(awsKey, awsAccessKey)
val s3Client: AmazonS3 = AmazonS3ClientBuilder.standard().withCredentials(new AWSStaticCredentialsProvider(credentials)).build()
具有这些要求build.sbt
和最新版本:
libraryDependencies ++= Seq(
"com.amazonaws" % "aws-java-sdk-bom" % "1.11.391",
"com.amazonaws" % "aws-java-sdk-s3" % "1.11.391"
)