0

Was trying to figure out if joins can be achieved with apache NiFi or Streamsets. So that i can read from HBase periodically, join with other tables and write few fields into a Hive table.

Or is there any other workflow manager tool that supports this operation?

4

1 回答 1

3

我不熟悉 Streamsets,但我会尝试帮助 NiFi。你的平面文件是静态的吗?如果是这样,您是否希望直接替换值?您应该能够为此使用ReplaceTextWithMapping处理器。如果不是直接替换,您可以使用平面文件中的值预先填充DistributedMapCache,然后使用FetchDistributedMapCache对 HBase 记录进行查找。

如果一切都失败了,那么如果您对 Groovy、Javascript 或 Jython 等脚本语言感到满意,您可以使用ExecuteScriptInvokeScriptedProcessor编写“加入”部分。

在支持 CSV 文件、属性文件和内存查找的查找/丰富处理器上有一个开放的 Jira 案例(取得了一些良好的进展)。

于 2017-05-03T15:13:07.677 回答