我有表格的输入记录
2013-07-09T19:17Z,f1,f2
2013-07-09T03:17Z,f1,f2
2013-07-09T21:17Z,f1,f2
2013-07-09T16:17Z,f1,f2
2013-07-09T16:14Z,f1,f2
2013-07-09T16:16Z,f1,f2
2013-07-09T01:17Z,f1,f2
2013-07-09T16:18Z,f1,f2
这些代表时间戳和事件。这些都是我手写的,但实际数据应该根据时间排序。
我想生成一组记录,这些记录将输入到需要连续时间序列的绘图函数中。我想填写缺失值,即如果有“2013-07-09T19:17Z”和“2013-07-09T19:19Z”的条目,我想生成“2013-07-09T19:18Z”的条目" 具有预定义的值。
我对这样做的想法:
- 使用 MIN 和 MAX 查找系列中的开始和结束日期
- 编写取最小值和最大值并返回缺少时间戳的关系的 UDF
- 加入以上2个关系
不过,我无法弄清楚如何在 PIG 中实现这一点。将不胜感激任何帮助。
谢谢!