问题标签 [streamsets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
976 浏览

java - 流集中的正则表达式

嗨,我想使用 Streamsets 打破日志文件。日志就像,

日志中可能还有超过 2 个 IP,我正在尝试从我的日志中捕获唯一的第一个和第二个 IP 地址。据说 Streamsets 使用 Java REGEX 模式。

到目前为止,我在 Streamsets 的 Expression Evaluator 处理器中所做的是,

知道如何捕获第二个 IP 吗?

0 投票
0 回答
131 浏览

time - 在流集中将时间戳转换为 UTC

我正在通过流集从 Hadoop 中的不同区域摄取日志。我想将不同的时间戳转换为单个 UTC 时间戳。我怎样才能在流集中做到这一点?

0 投票
2 回答
709 浏览

streamsets - 无法将数据写入 MySql 的流集中的 JDBC 生产者

我已经在管道中配置了 JDBC 连接配置。

当应用程序执行时,我在日志中收到以下错误。

databaseName 不是我设置的。

我已经试过很多次了。它显示了在不同数据库中找不到表的相同消息,问题是 sdc.log 中发生的所有 db 都是我从未配置过的,并且从未使用过正确的数据库,所以我想知道如何它找到了错误的数据库,我在启动管道之前检查了它,它显示成功:

在此处输入图像描述

0 投票
1 回答
208 浏览

hadoop - 文件未使用 Streamsets 从本地加载到 HDFS(已成功验证!)

我刚刚开始使用流集,并且正在尝试将文本文件从本地加载到 HDFS。请注意:我使用的是 Cloudera Manager,这是“core-site.xml”的视图:

本地文件是存储在“/home/cloudera/Desktop”中的文本文件。

这是 Streamsets 中源(本地)配置的视图:

Streamsets 中的本地文件配置

这是 Streamsets 中 Hadoop fs 配置的视图:

Streamsets 中的 Hadoop fs 配置

验证成功!

管道已通过验证

播放完管道后,我应该在我指定的 HDFS 目录中找到该文件,尤其是在“/user/cloudera”。

但是当我运行它时,文件还没有加载。

我确定我错过了一些东西,我找不到答案。能否请你帮忙!

谢谢,

0 投票
1 回答
99 浏览

azure - 尝试让 Azure Kubernetes 服务使用服务中的集群负载均衡器时出错

我正在努力让 Streamsets Data Collector 在 Azure Kubernetes 服务 (AKS) 中运行,当我运行kubectl ....该服务时,它似乎已启动,但它给出了此错误。这是一个 RBAC AKS 集群,所以我认为我需要授予服务主体权限和/或在 Kubernetes 中将集群角色绑定到该服务。有任何想法吗?

Kubernetes 错误 SDC服务

0 投票
1 回答
192 浏览

neo4j - Streamsets:Neo4j 查询非常慢

我正在使用 Streamsets 管道从远程上传 .csv 文件的活动文件目录中读取数据,并将这些数据放入 neo4j 数据库中。我使用的步骤是-

  • 为 .csv 中的每一行创建一个观察节点
  • 创建 csv 节点并在 csv 和记录之间创建关系
  • 将从 csv 节点获取的时间戳更新到 burn_in_test 节点,如果它是最新的,则已经从不同的管道在图形数据库中创建
  • 从 csv 创建关系以进行测试
  • 根据最新时间戳删除过时的关系

现在我正在使用 jdbc 查询执行所有这些操作,并且使用的密码查询是

现在这个过程非常缓慢,10 条记录大约需要 15 分钟的时间。这可以进一步优化吗?

0 投票
1 回答
67 浏览

streamsets - 特殊字符(重音、撇号、trema)在自定义源测试中有效,但在部署在 dockerized Streamsets 中时不再有效

我写了一个自定义的 Streamsets 起源。一些记录包含像 é 或 ë 这样的字符。在运行我的自动化测试时,我可以验证数据是否按预期作为 SDC 记录列表发出。

但是,当我在 dockerized Streamsets Data Collector 上的管道中使用我的自定义源时,所有这些特殊字符都显示在 UI(预览)中并作为“?”推送到我的目标。

Streamsets 是否解释了我的来源的输出并应用了一些字符编码?

0 投票
1 回答
308 浏览

streamsets - 在 Streamsets Data Collector 中安装外部库的问题

我在安装外部库时遇到了一个荒谬的问题,我已经完成了 Streamsets 文档中的所有步骤,但是在重新启动 Streamsets 后,我收到了这个错误:预计正好是 1 个阶段 lib jar,但找到了 2 个名称为 streamets-datacollector-jdbc-lib。有没有人有办法解决吗?

0 投票
2 回答
250 浏览

mongodb - StreamSets 获取 MongoDB 字段

我想问是否有人知道 StreamSets 是否也可以获取每个 MongoDB 记录中不存在的字段。

提前致谢。

0 投票
1 回答
871 浏览

apache-nifi - Apache NiFi 和 StreamSet

Apache NiFi 比 StreamSets 慢吗?

我创建了一个管道,它从 Kafka 主题接收数据并将数据转储到 Apache NiFi 和 StreamSets 中的另一个 Kafka 主题中,但 StreamSets 比 NiFi 快得多。

我在 NiFi 中使用 consumekafkaRecord 处理器,在 StreamSets 中使用 KafkaConsumer。