问题标签 [streamsets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
302 浏览

crate - Streamsets DC 和 Crate 异常。错误:SQLParseException:第 1:13 行:输入 'CHARACTERISTICS' 没有可行的替代方案

我正在尝试将 Crate 作为 Streamsets 数据收集器管道源 (JDBC Consumer) 连接到 Crate。但是我收到此错误:“JDBC_00 - 无法连接到指定的数据库:com.streamsets.pipeline.api.StageException:JDBC_06 - 无法初始化连接池:com.zaxxer.hikari.pool.PoolInitializationException:池初始化期间出现异常:错误: SQLParseException:第 1:13 行:输入 'CHARACTERISTICS' 没有可行的替代方案“为什么我会收到此错误?Crate JDBC Driver 版本是 2.1.5,Streamsets Data collector 版本是 2.4.0.0。

0 投票
1 回答
352 浏览

cloudera-manager - StreamSets 升级和 LDAP 身份验证

刚刚使用 Cloudera Manager (5.8.2) 将 StreamSets 从 2.1.0.2 升级到 2.4.0.0。我无法再登录 StreamSets - 我得到“登录失败”。新版本似乎使用了不同的 LDAP 查找方法。

我的更新前的日志如下所示:

3 月 15 日,上午 10:42:07.799 信息 com.streamsets.datacollector.http.LdapLoginModule
使用过滤器搜索用户:'(&(objectClass={0})({1}={2}))' 从基本 dn: DC=myComp,DC=Statistics,DC=ComQ,DC=uk 3 月 15 日上午 10:42:07.826 INFO com.streamsets.datacollector.http.LdapLoginModule
找到用户?:真 3 月 15 日上午 10:42:07.826 INFO com .streamsets.datacollector.http.LdapLoginModule
尝试认证:CN=UserDV,OU=London,OU=ComQ,DC=ComQ,DC=Statistics,DC=comQ,DC=uk

我的日志更新如下所示:

3 月 15 日上午 11:10:21.406 信息 com.streamsets.datacollector.http.LdapLoginModule
访问 LDAP 服务器:ldaps://comQ.statisticsxxx.com:3269 startTLS: false 3 月 15 日上午 11:10:22.086 信息 org.ldaptive .auth.SearchDnResolver
搜索 user=[org.ldaptive.auth.User@1573608120::identifier= userdv, context=null] 使用 filter=[org.ldaptive.SearchFilter@1129802876::filter=(&(objectClass=user )(uid={user})), parameters={context=null, user=userdv}] 3 月 15 日上午 11:10:22.087 信息 com.streamsets.datacollector.http.LdapLoginModule
找到用户?:假 11 年 3 月 15 日:10:22.087 AM 错误 com.streamsets.datacollector.http.LdapLoginModule
结果代码:空 - DN 不能为空

0 投票
0 回答
280 浏览

google-realtime-api - HTTP_21 - OAuth2 身份验证失败。请确保凭据有效

我正在使用 StreamSet 实现 Google Analytics Api 以流式传输实时统计信息。我已经正确提供了私钥和 jwt 令牌,但总是收到相同的错误“HTTP_21 - OAuth2 身份验证失败。请确保凭据有效。” 提前致谢。

0 投票
1 回答
301 浏览

apache-kafka - Streamsets 类未找到异常

我在流集中构建了一个管道来从我的 sql 中读取数据并进行更改数据捕获。当我开始执行管道时,出现以下错误。

管道状态:START_ERROR:java.lang.NoClassDefFoundError:org/apache/kafka/common/KafkaException

0 投票
0 回答
778 浏览

apache-kudu - Streamsets 在使用 Kudu 客户端时抛出异常(MANUAL_FLUSH 缓冲区)

我是 Streamsets 和 Kudu 技术的新手,我正在尝试几种解决方案来实现我的目标:我有一个包含一些 Avro 文件的文件夹,这些文件需要处理并随后发送到 Kudu 模式。

https://i.stack.imgur.com/l5Yf9.jpg

当使用包含数百条记录的 Avro 文件时,一切正常,但是当记录数增加到 16k 时,会显示此错误:

我在 Streamsets 和 Kudu 上搜索了所有可用的配置,我能够应用的唯一解决方案是编辑 Java 源代码,删除从默认刷新模式切换到手动模式的单行;这可行,但它不是最佳解决方案,因为每次我想在新机器上使用它时都需要编辑和编译这个文件。

任何人都知道如何避免这种情况发生?

提前致谢!

0 投票
1 回答
437 浏览

hadoop - NiFi or Streamsets to read from HBase , join with content from flat file and write to Hive

Was trying to figure out if joins can be achieved with apache NiFi or Streamsets. So that i can read from HBase periodically, join with other tables and write few fields into a Hive table.

Or is there any other workflow manager tool that supports this operation?

0 投票
1 回答
955 浏览

python - 在 Jython StreamSets 中导入 python 模块 - ImportError: No module named

我在 CentOS 上的 docker 中运行 StreamSets。尝试在 Jython 中导入 python 包,它返回以下错误:

这是 Jython 模块中用于导入我的包的代码:

注意:由于我在 docker 中运行 StreamSets,我已经确保我的 docker 可以访问/path_to_my/python2.7/site-packages

0 投票
0 回答
3033 浏览

maven - 无法从 RPM 查询默认供应商:执行过程时出错。在运行流集时

我只是按照以下教程了解最新的流集 2.6.6,使用 Flume 作为数据收集器,https://github.com/streamsets/datacollector/blob/master/BUILD.md

在进行构建时,我遇到了以下错误:

[错误] 无法在项目 streamets-datacollector-aws-lib 上执行目标 org.codehaus.mojo:rpm-maven-plugin:2.1.2:attached-rpm (generate-sdc-streamsets-datacollector-aws-lib-rpm) :无法从 RPM 查询默认供应商:执行过程时出错。无法运行程序“rpm”:错误=2,没有这样的文件或目录 -> [帮助 1]

0 投票
1 回答
150 浏览

elasticsearch - 如何在 2.5 中为弹性搜索目标添加路由

我正在使用 StreamSets (2.5.1.1) 将数据传输到 Elasticsearch (5.4.1)。我的索引需要路由,但我看不到如何将路由添加到管道中的 Elasticsearch 目标。我想我可以只添加一个“路由”http参数,但它需要是动态的,并且 SS 不喜欢我的 EL 表达式到我的记录(尝试像 ${record:value("/myRoutingId")} 作为值。

添加路由的正确方法是什么?

0 投票
2 回答
606 浏览

regex - 如何使用 StreamSets 解析日志文件的多行记录?

我正在使用 StreamSets 解析日志文件,StreamSets 逐行解析的问题,我的日志记录是多行,类似这样

我尝试了正则表达式和 grok 模式,但新的行标签对我不起作用。那么,如何让 StreamSets 将记录解析为多行呢?