0

我想创建以下工作流程:

1.使用 GetTwitter 处理器获取推文。

  1. 使用 MergeContent 流程将推文合并到更大的文件中。

  2. 将合并的文件存储在 HDFS 中。

  3. 在 hadoop/hive 方面,我想根据这些推文创建一个外部表。

有一些示例如何执行此操作,但我缺少的是如何配置 MergeContent 处理器:设置为页眉、页脚和分界符的内容。以及在蜂​​巢侧使用什么作为分隔符,以便它将合并的推文分成几行。希望我清楚地描述了自己。

提前致谢。

4

1 回答 1

0

二进制模式下的 MergeContent 处理器可以很好地完成这项工作。不需要页眉、页脚和分界符。

于 2016-04-22T21:52:26.533 回答