在 Hadoop 中如何处理每天增加的数据:
例如:
第一天我可能在某个输入文件夹中有 100 万个文件(例如 hadoop/demo)
在同一文件夹中的第二天,文件可能会从现有的 100 万个文件 + 另一个新的 100 万个文件增加,因此总共 200 万个。
同样是第 3 4 天...继续前进。
我的限制是 -> 第一天的文件不应该在第二天处理。
(ie) 当新文件与它们一起添加时,不应再次处理已经处理的文件。更具体地说,只应处理新添加的文件,而应忽略旧文件。
所以请帮助我解决这个问题。
不过,如果您不了解约束条件,请说出不清楚的地方,以便我可以详细说明我的约束条件!