我有一个应用程序每天或每小时或随机将数据写入 S3,另一个应用程序将数据从 S3 读取到本地 HBase。有没有办法告诉上次更新上传的最后一个文件是什么,然后读取文件,换句话说,增量复制文件?
例如:第 1 天:App1 将文件 1、2、3 写入文件夹 1;App2 将这 3 个文件读取到 HBase;第 4 天:App1 将文件 4 和 5 写入文件夹 1,将 6、7、8 写入文件夹 2;App2 需要从文件夹 1 中读取 4 &5,然后从文件夹 2 中读取 6,7,8。
谢谢
我有一个应用程序每天或每小时或随机将数据写入 S3,另一个应用程序将数据从 S3 读取到本地 HBase。有没有办法告诉上次更新上传的最后一个文件是什么,然后读取文件,换句话说,增量复制文件?
例如:第 1 天:App1 将文件 1、2、3 写入文件夹 1;App2 将这 3 个文件读取到 HBase;第 4 天:App1 将文件 4 和 5 写入文件夹 1,将 6、7、8 写入文件夹 2;App2 需要从文件夹 1 中读取 4 &5,然后从文件夹 2 中读取 6,7,8。
谢谢