0

HDFS 内部的文件夹结构应支持数据的年、月和日处理。如果我们必须处理过去 16 天/ 21 天,框架应该支持它。任何临时天数,除了指定天数和开始日期外,处理应该在没有人为干预的情况下完成。HDFS 路径规范应该是自动化的。默认将每天处理文件。

该框架应该与 Map Reduce 代码集成,因为它必须知道需要查看哪些文件夹才能开始工作。

当前: 例如:

/user/projectname/sourcefiles/datasetname/yyyy/mm/dd/timestamp/filename

但这并不能满足所有要求。例如,如果我们必须处理过去 16 天的数据。

“/user/projectname/sourcefiles/datasetname/yyyy/mm/[01][0-9]/timestamp/filename” 此路径将不起作用,因为第 19 天的文件也将包括在内。

以及如何确保 HDFS 文件夹结构和 Map Reduce 作业的时间戳同步?

谢谢你的时间。

4

2 回答 2

0

如果您向 MAP Reduce 提供一个文件夹,它将处理该文件夹中的所有文件。您可以创建每周文件夹或每两周文件夹。我希望这会有所帮助

于 2013-04-24T08:05:54.213 回答
0

你可以:

  1. 使用路径通配 - 计算您希望处理的日期的路径字符串 - 见这里http://books.google.co.il/books?id=Nff49D7vnJcC&pg=PA61&lpg=PA61&dq=path+globbing+pattern+hadoop&source=bl&ots= IihwWu8xXr&sig=g7DLXSqiJ7HRjQ8ZpxcAWJW0WV0&hl=en&sa=X&ei=Fp13Uey9AaS50QXJq4B4&ved=0CDAQ6AEwAQ#v=onepage&q=path%20globbing%20pattern%20hadoop&f=false

  2. 使用符号链接来帮助您拥有多个层次结构 - 但仅在 Java API 中可用 - 请参见此处http://blog.cloudera.com/blog/2010/08/what%E2%80%99s-new-in-apache -hadoop-0-21/

于 2013-04-24T08:54:07.630 回答