使用 Hadoop(或 pig 或 Hive)生成时间序列的最简单方法是什么?或者我在哪里可以获得有关正确功能的信息?
例如,我想生成一个从 00:00:00 01/01/2000 到 23:59:59 31/12/2010 的 1 秒序列。
使用其他程序(例如 R)非常简单,因为它们有许多函数可以处理日期和时间。
问候
使用 Hadoop(或 pig 或 Hive)生成时间序列的最简单方法是什么?或者我在哪里可以获得有关正确功能的信息?
例如,我想生成一个从 00:00:00 01/01/2000 到 23:59:59 31/12/2010 的 1 秒序列。
使用其他程序(例如 R)非常简单,因为它们有许多函数可以处理日期和时间。
问候
您可以使用空的 map() 方法编写映射器。在 cleanup() 方法中,使用几个 java 包(例如 Joda)中的任何一个来帮助迭代和格式化时间戳,然后再将它们写入上下文。
当您发现 R 如此简单时,为什么不使用Hadoop Streaming呢?:)
AFAIK,没有 OOTB 功能可以做到这一点。正如您已经提到的,R 有许多很酷的内置函数,您可以在流式 MR 作业中使用它们。