0

我有一个应用程序每天或每小时或随机将数据写入 S3,另一个应用程序将数据从 S3 读取到本地 HBase。有没有办法告诉上次更新上传的最后一个文件是什么,然后读取文件,换句话说,增量复制文件?

例如:第 1 天:App1 将文件 1、2、3 写入文件夹 1;App2 将这 3 个文件读取到 HBase;第 4 天:App1 将文件 4 和 5 写入文件夹 1,将 6、7、8 写入文件夹 2;App2 需要从文件夹 1 中读取 4 &5,然后从文件夹 2 中读取 6,7,8。

谢谢

4

1 回答 1

0

LastModified 标头字段可用于根据创建日期处理数据。这需要在客户端有一个内置逻辑来存储已处理的项目和新项目。您可以简单地存储您处理的日期,以便之后的所有内容都被视为新日期。

例子:

s3cmd ls s3://test
2012-07-24 18:29  36303234   s3://test/dl.pdf

查看文件前面的日期。

于 2012-07-24T18:51:18.257 回答