问题标签 [streamsets]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

177 问题

0 投票

1 回答

976 浏览

java - 流集中的正则表达式

嗨，我想使用 Streamsets 打破日志文件。日志就像，

日志中可能还有超过 2 个 IP，我正在尝试从我的日志中捕获唯一的第一个和第二个 IP 地址。据说 Streamsets 使用 Java REGEX 模式。

到目前为止，我在 Streamsets 的 Expression Evaluator 处理器中所做的是，

知道如何捕获第二个 IP 吗？

2018-10-05T11:29:45.990

0 投票

0 回答

131 浏览

time - 在流集中将时间戳转换为 UTC

我正在通过流集从 Hadoop 中的不同区域摄取日志。我想将不同的时间戳转换为单个 UTC 时间戳。我怎样才能在流集中做到这一点？

time timestamp utc streamsets

2018-10-08T09:04:29.443

0 投票

2 回答

709 浏览

streamsets - 无法将数据写入 MySql 的流集中的 JDBC 生产者

我已经在管道中配置了 JDBC 连接配置。

当应用程序执行时，我在日志中收到以下错误。

databaseName 不是我设置的。

我已经试过很多次了。它显示了在不同数据库中找不到表的相同消息，问题是 sdc.log 中发生的所有 db 都是我从未配置过的，并且从未使用过正确的数据库，所以我想知道如何它找到了错误的数据库，我在启动管道之前检查了它，它显示成功：

streamsets

2018-10-15T05:01:46.937

0 投票

1 回答

208 浏览

hadoop - 文件未使用 Streamsets 从本地加载到 HDFS（已成功验证！）

我刚刚开始使用流集，并且正在尝试将文本文件从本地加载到 HDFS。请注意：我使用的是 Cloudera Manager，这是“core-site.xml”的视图：

本地文件是存储在“/home/cloudera/Desktop”中的文本文件。

这是 Streamsets 中源（本地）配置的视图：

Streamsets 中的本地文件配置

这是 Streamsets 中 Hadoop fs 配置的视图：

Streamsets 中的 Hadoop fs 配置

验证成功！

管道已通过验证

播放完管道后，我应该在我指定的 HDFS 目录中找到该文件，尤其是在“/user/cloudera”。

但是当我运行它时，文件还没有加载。

我确定我错过了一些东西，我找不到答案。能否请你帮忙！

谢谢，

hadoop file-upload hdfs pipeline streamsets

2018-10-22T11:05:34.003

0 投票

1 回答

99 浏览

azure - 尝试让 Azure Kubernetes 服务使用服务中的集群负载均衡器时出错

我正在努力让 Streamsets Data Collector 在 Azure Kubernetes 服务 (AKS) 中运行，当我运行kubectl ....该服务时，它似乎已启动，但它给出了此错误。这是一个 RBAC AKS 集群，所以我认为我需要授予服务主体权限和/或在 Kubernetes 中将集群角色绑定到该服务。有任何想法吗？

azure docker azure-aks streamsets

2018-12-14T16:04:32.577

0 投票

1 回答

192 浏览

neo4j - Streamsets：Neo4j 查询非常慢

我正在使用 Streamsets 管道从远程上传 .csv 文件的活动文件目录中读取数据，并将这些数据放入 neo4j 数据库中。我使用的步骤是-

为 .csv 中的每一行创建一个观察节点
创建 csv 节点并在 csv 和记录之间创建关系
将从 csv 节点获取的时间戳更新到 burn_in_test 节点，如果它是最新的，则已经从不同的管道在图形数据库中创建
从 csv 创建关系以进行测试
根据最新时间戳删除过时的关系

现在我正在使用 jdbc 查询执行所有这些操作，并且使用的密码查询是

现在这个过程非常缓慢，10 条记录大约需要 15 分钟的时间。这可以进一步优化吗？

neo4j cypher streamsets

2019-01-04T10:52:21.570

0 投票

1 回答

67 浏览

streamsets - 特殊字符（重音、撇号、trema）在自定义源测试中有效，但在部署在 dockerized Streamsets 中时不再有效

我写了一个自定义的 Streamsets 起源。一些记录包含像 é 或 ë 这样的字符。在运行我的自动化测试时，我可以验证数据是否按预期作为 SDC 记录列表发出。

但是，当我在 dockerized Streamsets Data Collector 上的管道中使用我的自定义源时，所有这些特殊字符都显示在 UI（预览）中并作为“？”推送到我的目标。

Streamsets 是否解释了我的来源的输出并应用了一些字符编码？

streamsets

2019-01-22T12:36:45.973

0 投票

1 回答

308 浏览

streamsets - 在 Streamsets Data Collector 中安装外部库的问题

我在安装外部库时遇到了一个荒谬的问题，我已经完成了 Streamsets 文档中的所有步骤，但是在重新启动 Streamsets 后，我收到了这个错误：预计正好是 1 个阶段 lib jar，但找到了 2 个名称为 streamets-datacollector-jdbc-lib。有没有人有办法解决吗？

streamsets

2019-02-25T09:13:31.363

0 投票

2 回答

250 浏览

mongodb - StreamSets 获取 MongoDB 字段

我想问是否有人知道 StreamSets 是否也可以获取每个 MongoDB 记录中不存在的字段。

提前致谢。

mongodb streamsets

2019-03-04T09:43:55.833

0 投票

1 回答

871 浏览

apache-nifi - Apache NiFi 和 StreamSet

Apache NiFi 比 StreamSets 慢吗？

我创建了一个管道，它从 Kafka 主题接收数据并将数据转储到 Apache NiFi 和 StreamSets 中的另一个 Kafka 主题中，但 StreamSets 比 NiFi 快得多。

我在 NiFi 中使用 consumekafkaRecord 处理器，在 StreamSets 中使用 KafkaConsumer。

apache-nifi streamsets

2019-03-15T05:31:25.117

1 2 3 4 5 6 7 8 9 10

问题标签 [streamsets]

Reference