问题标签 [apache-nifi]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3978 浏览

java - Apache NiFi 中的 ReplaceText 用法

我正在尝试使用 Apache NiFi 中的开箱即用处理器 ReplaceText 在 .dsv 文件中搜索,匹配所有日期时间格式并将它们转换为日期。但是,我不确定如何配置处理器本身。我试图将我的搜索值(搜索值属性)设置为如下所示:

虽然我的替换值是匹配 ${time:format("yyyy-MM-dd'")} 的正则表达式1,但我还设置了另一个名为 time 的属性,该属性依次匹配 (0{0,1}[1-9])|(1/d)|(2/d)|(3[0-1])/(0{0,1}[1-9])|(1[0-2])/([1-9]/d):(0{0,1}/d)|(1/d)|(2[0-4]):(0{0,1}/d)|([1-5]/d)

这不起作用,我觉得我没有按应有的方式使用 ReplaceText。你能帮我吗?

编辑:

我应该包括我正在使用称为正则表达式替换和评估模式整个文本的替换策略。

0 投票
2 回答
4649 浏览

apache-kafka - Apache NiFi 中的条件路由

我正在使用 NiFi 从 Oracle 数据库中获取数据并将其中一些数据放入 Kafka(使用处理器 PutKafka)。示例:如果属性“id”包含“aaabb”

这在 Apache NiFi 中可能吗?我该怎么做?

0 投票
1 回答
237 浏览

apache-nifi - 由于 java 网络连接异常,无法从 hbase 接收数据:Nifi 中的连接被拒绝

使用 Hbase 在 Nifi 上工作。在此我从 Hbase 获取数据,使用 Gethbase 处理器并将数据发送到 Nifi 中的 Putfile 处理器。但是我在 Nifi 中收到错误“由于 java 网络连接异常:连接被拒绝”而无法从 Hbase 接收数据。请有任何建议

0 投票
1 回答
20836 浏览

python - 如何在 Python 中使用 NiFi ExecuteScript 处理器?

我在 Apache NiFi 中使用简单的 Python 脚本(保存为 .py 文件)对 ExecuteScript 处理器进行了非常基本的设置,如下所示。在处理器的属性中,我将脚本引擎设置为 python,将脚本文件设置为该脚本的路径。

这是我制作的数据流程图: nifi 数据流

我没有看到任何输出到日志或 PutFile 的内容。但是,我确实看到打印语句出现在 \nifi-0.6.1\logs\nifi-bootstrap.log 中。我目前对此的了解有限。我会很感激任何知道如何使用 ExecuteScript 处理器的人的回答,或者甚至给我一个比我当前设置更好的例子。

0 投票
1 回答
152 浏览

apache-spark - 将 nifi 接收器与 Spark 流集成导致 sbt 组装失败

我正在尝试使用 nifi 接收器创建 Spark Streaming 应用程序。根据教程,我将 sbt 依赖项添加到我的构建文件中,但现在sbt assembly由于重复数据删除错误而失败。

我的 build.sbt 文件是:

我得到的错误是:

有谁知道如何解决这个问题?

谢谢,马可

0 投票
2 回答
2654 浏览

regex - 将 \r\n、\n 和 \t 替换为 " " 的 Groovy 脚本

我正在使用 Apache NiFi 来构建我的数据流,而我目前正在处理的实际数据是由分隔值组成的。我想使用 ExecuteScript,为此我整理了一个简单的 Groovy 脚本,它应该执行以下操作:

1) 用竖线 (|) 替换当前分隔符

2) 将 \r\n 和 \tab 替换为 " "

此脚本的原因是对显示以下问题的数据集进行一些数据清理和争论:

\taba) 文本(通常很长)通过或跨行\r\n。这可能发生在句号之前,但并不一致。

b) 空行(目前脚本还没有涉及到这一点)

1) 很容易完成,但是 2) 的代码似乎没有删除表格和回车,我不知道为什么。这是代码:

谢谢您的帮助。

0 投票
2 回答
802 浏览

parquet - apache nifi,hdfs parquet 格式

我是 NIFI 的新手,我的用例是从端口读取并以 parquet 格式写入 hdfs,我的研究表明有一种叫做 KiteSDK 的东西,我可以用它保存为 Parquet 格式。对吗?请指教。任何例子都会有所帮助。

0 投票
1 回答
838 浏览

hortonworks-data-platform - 当“数据流的速率超过出处记录速率”时,HandleHttpRequest 失败并显示 SERVICE_UNAVAILABLE

我有一个使用 jMeter 的批处理测试,它使用 HandleHttpRequest 向处理器 NIFI 发送几个 HTTP 请求 (GET) 并发送到 Topic Kafka。

问题是 StandardHTTPContextMap 返回 SERVICE_UNAVAILABLE 错误,似乎当数据流的速率超过出处记录速率时会发生这种情况,但我不确定。

有人知道吗?我删除了部分日志:

0 投票
1 回答
1029 浏览

apache-nifi - 将传入消息转换为镶木地板格式

我知道我可以使用 spark 从 nifi 读取并以 parquet 格式写入 hdfs,但是有没有办法直接从 apache-nifi 以 parquet 格式写入 HDFS?请指教

谢谢普拉迪普

0 投票
0 回答
1160 浏览

apache-nifi - 等待 OnScheduled 时 Apache NIFI 超时

nifi.processor.scheduling.timeout 是否真的默认为无限,如管理指南中所述?当我查看代码时,它看起来在 60 秒后超时。我们有一个处理器需要一些时间来启动(加载资源)并且遇到“等待 OnScheduled 时超时”错误。只是想弄清楚为什么它有时会在启动时失败,然后还会继续失败并出现同样的错误。

真的很奇怪。关闭所有处理器,启动实例并单独启动处理器似乎可以解决问题。但是,如果它们都打开并且实例重新启动,我们会遇到错误。

可能很容易成为其他东西,但启动顺序似乎有效。

NIFI 管理员

NIFI 处理器代码

来自 NIFI Github 的代码片段,我在其中发现超时错误