2

我有以下格式的数据文件:

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

U:    john
T:    2011-03-03 12:12:12
L:    san diego, CA

用 Hadoop/pig/whatever 读取这个文件进行分析的最佳方法是什么?

4

1 回答 1

1

有什么方法可以控制数据的写入方式?编写一个将其移至制表符分隔的过程将帮助您开箱即用地做到这一点。

否则,编写自定义记录读取器(在 Pig 或 Java MapReduce 中)可能是您唯一的选择。两者都不是很难。

于 2011-07-18T17:41:04.607 回答