1

我正在使用 PutHBaseJSon 处理器,该处理器将从 hdfs 位置获取数据并将其放入 hbase。hdfs 位置中存在的数据类似于以下格式,并且位于单个文件中。

{"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"}            
{"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"}
{"EMPID": "19", "EMPNAME": "b19", "DEPTID": "DNA"}

当我执行 PutHBaseJSon 处理器时,它只获取第一行并将其放入我创建的 hbase 表中。我们不能使用该处理器获取该文件中存在的所有行吗?或如何从单个文件中获取所有记录到 hbase?

4

2 回答 2

1

PutHBaseJSON 将单个 JSON 文档作为输入。从 HDFS 获取后,您应该能够使用行数为 1 的 SplitText 处理器将每个 JSON 文档放入单个流文件中。

如果您在单个 HDFS 文件中有数百万条 JSON 记录,那么您应该执行两阶段拆分,第一个 SplitText 应该拆分为 10,000 行数,然后第二个 SplitText 应该将它们拆分为每行 1 行。

于 2016-06-14T11:40:05.967 回答
-1

您可以使用 SplitJson 处理器将它们拆分为连续的单独记录,它们将被发送到 puthbasejson

于 2021-06-16T07:47:54.267 回答