我已按以下结构向 S3 提交报告:
s3://chum-bucket/YYYY/MM/DD/UsageReportYYYYMMDD.zip
s3://chum-bucket/YYYY/MM/DD/SearchReportYYYYMMDD.zip
s3://chum-bucket/YYYY/MM/DD/TimingReportYYYYMMDD.zip
YYYY MM DD 每天都在变化。文件名中的 YYYMMDD 在那里,因为文件在移动到 S3 之前都进入服务器上的一个目录。
我希望有 1 或 3 个爬虫,它们将 3 个表传送到目录,每种类型的报告一个。这可能吗?我似乎无法指定
s3://chum-bucket/**/UsageReport*.zip
s3://chum-bucket/**/SearchReport*.zip
s3://chum-bucket/**/TimingReport*.zip
我可以编写一个不包括 SearchReport 和 TimingReport 的爬虫,因此只爬取 UsageReport。这是最好的方法吗?
还是我必须完全重新做存储桶/文件夹/文件名设计?