问题标签 [apache-nifi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
605 浏览

apache-kafka - Kafka 不会在 NiFi 中接收大文件(30+ mb)

我正在使用 Apache NiFi,当试图让 Kafka 获取大约 30mb 的文本文件时,PutKafka 处理器拒绝获取从我的 GetFile 处理器发送的数据。

这是我的 PutKafka 处理器的配置:

当我尝试将文件放入 PutKafka 处理器时,会发生以下情况:

我尝试更改 PutKafka 处理器中的一些值无济于事。当发送一个非常小的文本文件时,同样的设置是成功的,但它没有被管道分隔。

谢谢

0 投票
2 回答
7345 浏览

apache-nifi - Apache Nifi 执行进程处理器

我正在尝试使用 Apache Nifi 实现以下工作流程:

  1. ExecuteSQL - 这是从 oracle 数据库中以 avro 格式获取数据
  2. PutHDFS - 这是将数据放入 hdfs
  3. ExecuteProcess – 此处理器在后台执行 bash 脚本,进而创建外部 hive 表

我有几个问题:

Apache Nifi 中的 ExecuteProcess 处理器是否接收传入的流文件?

我无法为 ExecuteProcess 处理器提供任何传入的流文件。如果没有,有没有办法支持获取传入的流文件?

0 投票
1 回答
2469 浏览

apache-nifi - Apache Nifi ExecuteSQL 处理器

我正在尝试使用 ExecuteSQL 处理器从 oracle 数据库中获取数据。我有一些查询,例如假设我的 oracle 数据库中有 15 条记录。在这里,当我运行 ExecuteSQL 处理器时,它将作为流式进程连续运行并将整个记录存储为HDFS 中的单个文件并重复执行相同操作。因此,hdfs 位置中将存在许多文件,这些文件将从 oracle db 中获取已获取的记录,并且这些文件包含相同的数据。如何使该处理器在这样的环境中运行它必须从oracle db一次获取所有数据并存储为单个文件的方式,并且当有新记录插入数据库时​​,它必须将这些数据摄取到hdfs位置?

0 投票
2 回答
869 浏览

json - Apache-Nifi 中的 PutHBaseJSon 处理器

我正在使用 PutHBaseJSon 处理器,该处理器将从 hdfs 位置获取数据并将其放入 hbase。hdfs 位置中存在的数据类似于以下格式,并且位于单个文件中。

当我执行 PutHBaseJSon 处理器时,它只获取第一行并将其放入我创建的 hbase 表中。我们不能使用该处理器获取该文件中存在的所有行吗?或如何从单个文件中获取所有记录到 hbase?

0 投票
2 回答
5352 浏览

apache-nifi - NIFI 用例

我对 Nifi 及其功能以及它的适当用例有疑问。

我读过 Nifi 的真正目标是创建一个允许基于流的处理的空间。在玩了一点 Nifi 之后,我也开始意识到它能够以对我有用的方式对数据进行建模/塑造。可以说 Nifi 也可以用于数据建模吗?

谢谢!

0 投票
1 回答
506 浏览

web-services - 带有 HBase、KNOX 和 NiFi 的 REST Web 服务

我正在使用 Hortonworks,我想设置一个 REST 网络服务。数据存储在 HBase 中,我想用 KNOX 和 Ranger 保护它。我不确定是否可以使用 NiFi 对其进行配置,因此我可以调用 REST API 并从 HBase(使用 Hive)获取数据。重要的是,使用 KNOX 保护连接,我也可以使用 Ranger 来保护数据安全。

  1. 我可以使用 NiFi 吗?
  2. 适合用例的最佳解决方案/架构是什么?

如果还可以添加一些相关的高级信息,那就太好了,这样我就可以更深入地研究这个主题了。

谢谢你的先进和最好的问候n3

0 投票
1 回答
75 浏览

rest - 如何在 Hadoop 上设置结果为 hhtprespon 的 REST 服务

实际上,我正在使用一个大数据环境,我在其中使用 Apache Nifi 摄取和处理数据。结果保存在 HBase 表中,我想使用 Hive 访问存储的数据。现在我想设置一个 REST 服务来读取 HBase 表。例子

获取http://localhost:50111/userid/42 --> http-response { "userid": 42, "name": "foobar" }

我认为这是现有解决方案的标准问题,但事实并非如此。问题是,我无法将结果作为 http-response 发送。

首先,我尝试使用 Nifi 并且 Web 服务正在运行,但仅限于静态内容,例如“200 OK”或“404 Not found”。所以我在没有Nifi的情况下尝试它。我读到,每个人都在说,WebHCat 是要使用的工具,因为它是 Hive 的 REST API 工具。伟大的!但是......同样的问题:我可以在 HBase 上使用 WebHCat 和 Hive 通过 REST 服务执行查询,但是没有选项可以检索结果。

以我目前的知识,没有现成的解决方案,我必须开发自己的 REST 服务。正确的?真的?!

我是否必须开发自己的 REST 服务,或者在这种情况下最佳实践是什么?尼菲?蜂巢服务器2?此外,我想使用 Knox 和 Ranger 保护 REST 服务。

我希望有人可以帮助我并向我展示正确的(!)方法,因为如果有更好或最佳实践解决方案,我不想制作新的和特别的东西。

谢谢~n3

0 投票
1 回答
120 浏览

maven-3 - 构建 Apache Nifi - 缺少 SNMP nar

我正在尝试按照此处给出的说明在我的 Windows 机器上本地构建 Apache Nifi:https ://nifi.apache.org/quickstart.html 。

遇到以下问题:

无法在项目 nifi-snmp-nar 上执行目标:无法解析项目 org.apache.nifi:nifi-snmp-nar:nar:0.7.0-SNAPSHOT 的依赖项:找不到工件 org.apache.nifi:nifi- apache.snapshots ( http://repository.apache.org/snapshots ) 中的 snmp-processors:jar:1.0.0-SNAPSHOT -> [帮助 1] 有没有人遇到过同样的情况,有没有办法绕过这个?

0 投票
2 回答
6653 浏览

apache-nifi - 使用 Apache NiFi 将 CSV 文件转换为 JSON

我正在尝试从本地文件系统读取 csv 并使用 Apache Nifi 将内容转换为 JSON 格式并将 JSON 格式文件放入本地系统中。我已成功转换 csv 文件的第一行,但没有转换其他行。我错过了什么?

输入: 1,aaa,loc1 2,bbb,loc2 3,ccc,loc3

我的 nifi 工作流程如下: http ://www.filedropper.com/mycsvtojson

我的输出如下,这是所需的格式,但我希望所有行都发生这种情况。

{ "id" : "1", "name" : "aaa", "location" : "loc1" }

0 投票
1 回答
1980 浏览

deployment - Apache NiFi 的开发生命周期

我意识到使用 NiFi,正如他们的文档所定义的那样,“生产中会出现持续改进”。因此,这不适合用作传统的开发工具。然而,对于我正在从事的项目,我们已经决定这是我们将使用的工具,所以我宁愿不争论它的优点,因为我意识到会有一些问题。

例如,如果我将更改推送到现有环境(从登台到生产)并且在目标中有实时编辑,它们将被覆盖。所以我对如何组织开发生命周期有疑问。

  • 是否可以合并多个开发人员并行完成的更改(合并导出的 xml 模板文件)?我猜想合并任何重大更改可能很困难,但没有尝试过。
  • 如何管理版本控制更改?我假设您可以将整个配置导出为模板并将其检查到版本控制中?
  • 如何将流部署到不同的服务器?您可以只部署一个库存 NiFi 部署,然后使用 NiFi REST API 从导出的模板(如上所述)更新它吗?
  • 如何管理部署到可能具有不同配置的不同环境?您是否必须更新模板 XML 文件?或者我可以从 Zookeeper 之类的东西中动态提取它吗?