问题标签 [streamsets]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

177 问题

0 投票

1 回答

302 浏览

crate - Streamsets DC 和 Crate 异常。错误：SQLParseException：第 1:13 行：输入 'CHARACTERISTICS' 没有可行的替代方案

我正在尝试将 Crate 作为 Streamsets 数据收集器管道源 (JDBC Consumer) 连接到 Crate。但是我收到此错误：“JDBC_00 - 无法连接到指定的数据库：com.streamsets.pipeline.api.StageException：JDBC_06 - 无法初始化连接池：com.zaxxer.hikari.pool.PoolInitializationException：池初始化期间出现异常：错误： SQLParseException：第 1:13 行：输入 'CHARACTERISTICS' 没有可行的替代方案“为什么我会收到此错误？Crate JDBC Driver 版本是 2.1.5，Streamsets Data collector 版本是 2.4.0.0。

crate streamsets

2017-03-11T18:03:33.853

0 投票

1 回答

352 浏览

cloudera-manager - StreamSets 升级和 LDAP 身份验证

刚刚使用 Cloudera Manager (5.8.2) 将 StreamSets 从 2.1.0.2 升级到 2.4.0.0。我无法再登录 StreamSets - 我得到“登录失败”。新版本似乎使用了不同的 LDAP 查找方法。

我的更新前的日志如下所示：

3 月 15 日，上午 10:42:07.799 信息 com.streamsets.datacollector.http.LdapLoginModule
使用过滤器搜索用户：'(&(objectClass={0})({1}={2}))' 从基本 dn： DC=myComp,DC=Statistics,DC=ComQ,DC=uk 3 月 15 日上午 10:42:07.826 INFO com.streamsets.datacollector.http.LdapLoginModule
找到用户？：真 3 月 15 日上午 10:42:07.826 INFO com .streamsets.datacollector.http.LdapLoginModule
尝试认证：CN=UserDV,OU=London,OU=ComQ,DC=ComQ,DC=Statistics,DC=comQ,DC=uk

我的日志更新后如下所示：

3 月 15 日上午 11:10:21.406 信息 com.streamsets.datacollector.http.LdapLoginModule
访问 LDAP 服务器：ldaps://comQ.statisticsxxx.com:3269 startTLS: false 3 月 15 日上午 11:10:22.086 信息 org.ldaptive .auth.SearchDnResolver
搜索 user=[org.ldaptive.auth.User@1573608120::identifier= userdv, context=null] 使用 filter=[org.ldaptive.SearchFilter@1129802876::filter=(&(objectClass=user )(uid={user})), parameters={context=null, user=userdv}] 3 月 15 日上午 11:10:22.087 信息 com.streamsets.datacollector.http.LdapLoginModule
找到用户？：假 11 年 3 月 15 日:10:22.087 AM 错误 com.streamsets.datacollector.http.LdapLoginModule
结果代码：空 - DN 不能为空

cloudera-manager streamsets

2017-03-15T15:11:13.003

0 投票

0 回答

280 浏览

google-realtime-api - HTTP_21 - OAuth2 身份验证失败。请确保凭据有效

我正在使用 StreamSet 实现 Google Analytics Api 以流式传输实时统计信息。我已经正确提供了私钥和 jwt 令牌，但总是收到相同的错误“HTTP_21 - OAuth2 身份验证失败。请确保凭据有效。” 提前致谢。

google-realtime-api streamsets

2017-04-04T05:20:04.427

0 投票

1 回答

301 浏览

apache-kafka - Streamsets 类未找到异常

我在流集中构建了一个管道来从我的 sql 中读取数据并进行更改数据捕获。当我开始执行管道时，出现以下错误。

管道状态：START_ERROR：java.lang.NoClassDefFoundError：org/apache/kafka/common/KafkaException

apache-kafka hadoop-streaming streamsets

2017-04-18T18:40:13.133

0 投票

0 回答

778 浏览

apache-kudu - Streamsets 在使用 Kudu 客户端时抛出异常（MANUAL_FLUSH 缓冲区）

我是 Streamsets 和 Kudu 技术的新手，我正在尝试几种解决方案来实现我的目标：我有一个包含一些 Avro 文件的文件夹，这些文件需要处理并随后发送到 Kudu 模式。

https://i.stack.imgur.com/l5Yf9.jpg

当使用包含数百条记录的 Avro 文件时，一切正常，但是当记录数增加到 16k 时，会显示此错误：

我在 Streamsets 和 Kudu 上搜索了所有可用的配置，我能够应用的唯一解决方案是编辑 Java 源代码，删除从默认刷新模式切换到手动模式的单行；这可行，但它不是最佳解决方案，因为每次我想在新机器上使用它时都需要编辑和编译这个文件。

任何人都知道如何避免这种情况发生？

提前致谢！

apache-kudu streamsets

2017-04-20T11:00:15.367

0 投票

1 回答

437 浏览

hadoop - NiFi or Streamsets to read from HBase , join with content from flat file and write to Hive

Was trying to figure out if joins can be achieved with apache NiFi or Streamsets. So that i can read from HBase periodically, join with other tables and write few fields into a Hive table.

Or is there any other workflow manager tool that supports this operation?

hadoop hive hbase apache-nifi streamsets

2017-05-03T10:57:23.590

0 投票

1 回答

955 浏览

python - 在 Jython StreamSets 中导入 python 模块 - ImportError: No module named

我在 CentOS 上的 docker 中运行 StreamSets。尝试在 Jython 中导入 python 包，它返回以下错误：

这是 Jython 模块中用于导入我的包的代码：

注意：由于我在 docker 中运行 StreamSets，我已经确保我的 docker 可以访问/path_to_my/python2.7/site-packages

python docker jython python-import streamsets

2017-05-19T21:50:31.683

0 投票

0 回答

3033 浏览

maven - 无法从 RPM 查询默认供应商：执行过程时出错。在运行流集时

我只是按照以下教程了解最新的流集 2.6.6，使用 Flume 作为数据收集器，https://github.com/streamsets/datacollector/blob/master/BUILD.md

在进行构建时，我遇到了以下错误：

[错误] 无法在项目 streamets-datacollector-aws-lib 上执行目标 org.codehaus.mojo:rpm-maven-plugin:2.1.2:attached-rpm (generate-sdc-streamsets-datacollector-aws-lib-rpm) ：无法从 RPM 查询默认供应商：执行过程时出错。无法运行程序“rpm”：错误=2，没有这样的文件或目录 -> [帮助 1]

maven amazon-web-services rpm-maven-plugin streamsets

2017-05-23T06:56:52.973

0 投票

1 回答

150 浏览

elasticsearch - 如何在 2.5 中为弹性搜索目标添加路由

我正在使用 StreamSets (2.5.1.1) 将数据传输到 Elasticsearch (5.4.1)。我的索引需要路由，但我看不到如何将路由添加到管道中的 Elasticsearch 目标。我想我可以只添加一个“路由”http参数，但它需要是动态的，并且 SS 不喜欢我的 EL 表达式到我的记录（尝试像 ${record:value("/myRoutingId")} 作为值。

添加路由的正确方法是什么？

elasticsearch streamsets

2017-06-29T21:23:53.960

0 投票

2 回答

606 浏览

regex - 如何使用 StreamSets 解析日志文件的多行记录？

我正在使用 StreamSets 解析日志文件，StreamSets 逐行解析的问题，我的日志记录是多行，类似这样

我尝试了正则表达式和 grok 模式，但新的行标签对我不起作用。那么，如何让 StreamSets 将记录解析为多行呢？

regex parsing logging cloudera streamsets

2017-07-09T10:53:15.010

1 2 3 4 5 6 7 8 9 10

问题标签 [streamsets]

Reference