问题标签 [hortonworks-dataflow]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
227 浏览

apache-nifi - 在 NiFi 中获取与消费

我看到一些处理器同时具有 GetXXX 和 ConsumeXXX 变体(例如 GetKafka 和 ConsumeKafka)。何时使用 GetXXX 而非 ConsumeXXX 来命名处理器?

注意:我了解ConsumeKafka 和 GetKafka 之间的技术差异。我的问题主要是关于命名约定。

0 投票
1 回答
466 浏览

apache-nifi - 控制器服务的内部 500 错误:带有 3 节点集群的 HDF Nifi

我已经安装了带有 3 节点 Nifi 1.1 集群的 HDF 2.1.2,我正在尝试在其中配置控制器服务。我创建了一个简单的 ExecuteHQL 处理器,它依赖于 ThriftConnectionPool 控制器服务。

我将 ExecuteProcessor 拖到画布上,当我单击用于配置控制器服务的齿轮图标时,它会在日志中引发运行时异常。

0 投票
1 回答
665 浏览

apache-nifi - Nifi 处理器的 Right Keytab

我在 Kerborized 环境中有 Nifi 3 节点集群(通过 Hortonworks Data Flow - HDF 安装)。作为安装的一部分,Ambari 创建了 nifi service keytab 。你好

我可以使用这个 nifi.service.keytab 来配置像 PutHDFS 这样与 Hadoop 服务对话的处理器吗?

nifi.service.keytab 是特定于机器的,并且总是期望带有机器信息的主体名称。ex nifi/HOSTNAME@REALM

如果我使用 nfii/NODE1_Hostname@REALM 信息配置我的处理器,那么我会在其他两个节点中看到 kerberos 身份验证异常。

如何动态解析主机名以使用 nifi 服务密钥表?

0 投票
1 回答
149 浏览

apache-nifi - HDF NIfi - Nifi 是否在 HDP 节点上写入出处/数据?

你好

我有带有 3 个 Nifi 实例的 HDF 集群,它在 HDP 集群上提供午餐作业(Hive/Spark)。通常 nifi 将所有信息写入本地计算机上可用的不同存储库。

我的问题是 - 访问 HDFS、Hive 或 Spark 服务时,nifi 是否会写入任何数据、出处信息或溢出到 HDP 节点(例如 HDP 集群中的数据节点)?

谢谢

0 投票
0 回答
716 浏览

hbase - Apache Phoenix TableNotFoundException 系统:目录


我想要一些帮助。
我格式化了我的 HDFS,我认为 Phoenix 应该在 HBASE 中重新创建 META-DATA 表。但在那之后我遇到了以下问题。有人遇到同样的问题吗?

错误:系统:目录(状态=08000,代码=101)

'

0 投票
1 回答
411 浏览

hadoop - Apache Nifi 和 OPC 集成问题(GetValue 处理器)

我已将 NIFI OPC UA [ https://github.com/wadesalazar/NIFI-OPCUA]处理器与 Apache Nifi 1.3 集成。我正在关注此 URL [ https://community.hortonworks.com/articles/90355/collect-data -from-opc-ua-protocol.html]开始。我在 windows 上安装了 prosys opc ua 的模拟 OPC 服务器。

我能够从 NIFI 上的 GetNodeIDs 处理器中提取消息,并且 splitText 处理器被用于逐行读取消息并发送到 GetValue 处理器,如示例所示,但我的 GetValue 处理器不断抛出错误。

我试图在 GetNodeIDs 处理器中设置“起始节点”属性,但无法确定我应该设置什么节点属性,请在下面找到来自模拟服务器的示例数据。

从模拟 opc 服务器接收的样本数据:

例外:

0 投票
1 回答
2247 浏览

performance - Kafka 造成的 NiFi 工作流瓶颈

我正在使用 Kafka 作为缓冲系统在 Apache NiFi 中创建数据摄取工作流。我有一个运行相同工作流的 3 节点集群,每个节点有 4 个核心。

我依赖于多个将数据移入和移出不同 Kafka 主题的实例,这是工作流中最慢的部分,并且在性能方面非常不一致,因为两个相同的测试最多可以增加 100% 的持续时间。

我们的发布和消费 Kafka 处理器在所有三个节点上运行,我们的 Kafka 主题在三个代理之间有 3 个分区。

有没有人知道什么会导致这种不一致以及我可以做些什么来减轻它并加快工作流程?

0 投票
1 回答
2058 浏览

java - 带有 Hive 的 NiFi PutHiveStreaming 处理器:无法连接到 EndPoint

有人会通过 Nifi 1.3.0 和 Hive 帮助解决这个问题。我在 Hive 1.2 和 Hive 2.1.1 中遇到同样的错误。蜂巢表被分区分桶并存储为ORC格式。

分区是在 hdfs 上创建的,但数据在写入阶段失败。请检查以下日志:

完整的跟踪日志:

重新连接。org.apache.thrift.transport.TTransportException: null at org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:132) at org.apache.thrift.transport.TTransport.readAll(TTransport.java:86) at org.apache.thrift.protocol.TBinaryProtocol.readAll(TBinaryProtocol.java:429) 在 org.apache.thrift.protocol.TBinaryProtocol.readI32(TBinaryProtocol.java:318) 在 org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin( TBinaryProtocol.java:219) 在 org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:69) 在 org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_lock(ThriftHiveMetastore.java:3906) 在 org .apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.lock(ThriftHiveMetastore.java:3893) 在 org.apache.hadoop.hive.metastore.HiveMetaStoreClient。Metastore 尝试使用 URI 连接到 Metastore thrift://localhost:9083 2017-09-07 06:41:31,893 INFO [Timer-Driven Process Thread-3] hive.metastore 已连接到 Metastore。2017-09-07 06:41:31,911 错误 [Timer-Driven Process Thread-3] oanprocessors.hive.PutHiveStreaming PutHiveStreaming[id=13ed53d2-015e-1000-c7b1-5af434c38751] 无法为端点创建 HiveWriter:{metaStoreUri=' thrift://localhost:9083', database='default', table='guys', partitionVals=[dev] }: org.apache.nifi.util.hive.HiveWriter$ConnectFailure: 无法连接到 EndPoint {metaStoreUri=' thrift://localhost:9083', database='default', table='guys', partitionVals=[dev] } org.apache.nifi.util.hive.HiveWriter$ConnectFailure: 连接到 EndPoint 失败 {metaStoreUri='thrift ://localhost:9083',数据库='默认',911 DEBUG [Timer-Driven Process Thread-3] oanprocessors.hive.PutHiveStreaming PutHiveStreaming[id=13ed53d2-015e-1000-c7b1-5af434c38751] 已选择让出其资源;不会安排再次运行 1000 毫秒 2017-09-07 06:41:31,912 错误 [Timer-Driven Process Thread-3] oanprocessors.hive.PutHiveStreaming PutHiveStreaming[id=13ed53d2-015e-1000-c7b1-5af434c38751] Hive流连接/写入错误,流文件将受到惩罚并路由重试。org.apache.nifi.util.hive.HiveWriter$ConnectFailure:无法连接到 EndPoint {metaStoreUri='thrift://localhost:9083',database='default',table='guys',partitionVals= 不会安排再次运行 1000 毫秒 2017-09-07 06:41:31,912 错误 [Timer-Driven Process Thread-3] oanprocessors.hive.PutHiveStreaming PutHiveStreaming[id=13ed53d2-015e-1000-c7b1-5af434c38751] Hive流连接/写入错误,流文件将受到惩罚并路由重试。org.apache.nifi.util.hive.HiveWriter$ConnectFailure:无法连接到 EndPoint {metaStoreUri='thrift://localhost:9083',database='default',table='guys',partitionVals= 不会安排再次运行 1000 毫秒 2017-09-07 06:41:31,912 错误 [Timer-Driven Process Thread-3] oanprocessors.hive.PutHiveStreaming PutHiveStreaming[id=13ed53d2-015e-1000-c7b1-5af434c38751] Hive流连接/写入错误,流文件将受到惩罚并路由重试。org.apache.nifi.util.hive.HiveWriter$ConnectFailure:无法连接到 EndPoint {metaStoreUri='thrift://localhost:9083',database='default',table='guys',partitionVals=

蜂巢表

CREATE TABLE mydb.guys(<code>firstname string, <code>lastname string) PARTITIONED BY (<code>job string) CLUSTERED BY (firstname) INTO 10 Bucket ROW FORMAT SERDE 'org.apache.hadoop.hive.ql.io.orc。 OrcSerde' 存储为 ORC 位置 'hdfs://localhost:9000/user/papesdiop/guys' TBLPROPERTIES ('transactional'='true')

提前致谢

0 投票
0 回答
1442 浏览

sql-server - Apache Nifi for MS SQL CDC 使用动态 SQL 查询

在我们的遗留架构中,我们有一个 MS SQL 服务器数据库,该数据库几乎实时存储所有传感器信息,平均每秒接收 100 条记录。为了获得有关传感器事件的完整信息,我们需要加入数据库中有 2 到 3 个表。

我们的要求是每 1 分钟获取一次上述查询的捕获数据变化,并将记录发布到 Kafka。

暂时我正在使用 Spark Core JDBC 进行 CDC,处理记录,发送到 Kafka 并将 CDC 信息与${lastExtractUnixTime}HBase 一起作为 Phoenix 表进行维护。作业安排为每 1 分钟的批处理间隔。

作为一个长期的解决方案,我们计划使用 Apache Nifi 来做 CDC 的事情并将信息发布到 Kafka,Spark 流将从 Kafka 读取消息,将在其上应用一些业务逻辑并将丰富的数据发送到另一个 Kafka 主题; 我没有找到合适的处理器,这将帮助我动态地传递${lastExtractUnixTime}in SQL 并每 1 或 2 分钟获取一次增量记录。

请建议如何使用 Apache Nifi 完成此操作。

0 投票
0 回答
450 浏览

sql-server - Apache Nifi:带有 where 子句 SQL 语句的 ExecuteSql 处理器问题

我正在使用 Apache Nifi 1.3.0,我正在使用 ExecuteSql 处理器从 MS SQLjdbc:jtds:sqlserver://IP:1433/DBNAME数据库中读取记录。

问题是,只有当我的 SQL 语句没有 where 子句时,我才能使用 ExecuteSql 处理器从 MS SQL 中检索记录,例如,select * from Table但是当我使用像select * from Table where ID > 10ExecuteSql 处理器这样的 SQL 语句无法获得结果时,我得到的只是空的 Avro 模式记录。