json - Apache-Nifi 中的 PutHBaseJSon 处理器

Question

我正在使用 PutHBaseJSon 处理器，该处理器将从 hdfs 位置获取数据并将其放入 hbase。hdfs 位置中存在的数据类似于以下格式，并且位于单个文件中。

{"EMPID": "17", "EMPNAME": "b17", "DEPTID": "DNA"}            
{"EMPID": "18", "EMPNAME": "b18", "DEPTID": "DNA"}
{"EMPID": "19", "EMPNAME": "b19", "DEPTID": "DNA"}

当我执行 PutHBaseJSon 处理器时，它只获取第一行并将其放入我创建的 hbase 表中。我们不能使用该处理器获取该文件中存在的所有行吗？或如何从单个文件中获取所有记录到 hbase？

score 1 · Accepted Answer

PutHBaseJSON 将单个 JSON 文档作为输入。从 HDFS 获取后，您应该能够使用行数为 1 的 SplitText 处理器将每个 JSON 文档放入单个流文件中。

如果您在单个 HDFS 文件中有数百万条 JSON 记录，那么您应该执行两阶段拆分，第一个 SplitText 应该拆分为 10,000 行数，然后第二个 SplitText 应该将它们拆分为每行 1 行。

score -1 · Accepted Answer

您可以使用 SplitJson 处理器将它们拆分为连续的单独记录，它们将被发送到 puthbasejson

json - Apache-Nifi 中的 PutHBaseJSon 处理器

2 回答 2

Related

Reference