我正在分析我的 Java 分布式爬虫(将爬取的文档存储在 S3 中),而 S3 插入绝对是一个瓶颈。事实上,在线程数足够多的情况下,由于 S3 读取数据的时间过长,线程将始终从 S3 获得超时异常。putObject
亚马逊或其他库是否提供了可以更有效地执行此操作的批量功能?
示例代码:
BUCKET = ...; // S3 bucket definition
AmazonS3 client= ...;
InputStream is = ...; // convert the data into input stream
ObjectMetadata meta = ...; // get metadata
String key = ...;
client.putObject(new PutObjectRequest(BUCKET, key, is, meta));