HDFS 内部的文件夹结构应支持数据的年、月和日处理。如果我们必须处理过去 16 天/ 21 天,框架应该支持它。任何临时天数,除了指定天数和开始日期外,处理应该在没有人为干预的情况下完成。HDFS 路径规范应该是自动化的。默认将每天处理文件。
该框架应该与 Map Reduce 代码集成,因为它必须知道需要查看哪些文件夹才能开始工作。
当前: 例如:
/user/projectname/sourcefiles/datasetname/yyyy/mm/dd/timestamp/filename
但这并不能满足所有要求。例如,如果我们必须处理过去 16 天的数据。
“/user/projectname/sourcefiles/datasetname/yyyy/mm/[01][0-9]/timestamp/filename” 此路径将不起作用,因为第 19 天的文件也将包括在内。
以及如何确保 HDFS 文件夹结构和 Map Reduce 作业的时间戳同步?
谢谢你的时间。