1

我在 s3 中有如下所示的日志,名称中带有时间戳。我想使用 s3distcp 将数据导入 EMR,这样我就可以使用 hive。

https://s3.amazonaws.com/mybucket/test/201305031003_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031004_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031005_0_ubuntu.gz
https://s3.amazonaws.com/mybucket/test/201305031006_0_ubuntu.gz

如何使用 s3distcp 选择日期范围?例如从 201303031003 到 201305031003?那是两个月的差异

4

2 回答 2

1

您可以使用--srcPattern s3distcp 选项来指定正则表达式以仅选择要复制的月份。

于 2013-05-04T18:17:03.680 回答
0

另一个选项是使用--srcPrefixesFile参数来指定要复制/移动的所有对象。

这涉及生成此列表的附加步骤,但如果您想在运行s3distcp步骤之前对其进行测试,这是一种更安全的方法。

于 2019-12-03T22:35:49.570 回答