问题标签 [streamsets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
132 浏览

http - 如何在 HttpClient 目标中发送 post 请求的请求正文?

我正在使用 stremasets ETL 工具来转换数据。转换后使用 HTTPClient Destination 作为 POST 请求将数据发送到休息服务。但在那里我没有找到任何发送请求正文的地方。那么如何使用发布数据触发休息?

谢谢

0 投票
1 回答
529 浏览

python-2.7 - 从受 Kerberos 保护的 Streamsets Data Collector (SDC) 检索数据

我正在尝试从受 Kerberos 保护的 SDC API 中检索数据。最初,我将凭据发布到 SCH 登录页面,然后使用生成的 cookie 访问 SDC rest api。但是,我无法发布凭据。响应代码为 401,因此无法访问 api。

响应代码为 401:对于 auth_request.status_code

0 投票
0 回答
111 浏览

streamsets - 流集数据收集器和 HDP

我们正在尝试构建用于从 JDBC(源)和 Hive Metastore(目标)读取数据的管道

在设置 General Tab ==> Stage Library 我们选择 Hive 2.1-HDP 2.6.2 1-1 (因为它没有与我们的版本匹配)

我们有以下配置

1)HDP :: 3.0.1

2)蜂巢:3.1

3)SDC:3.8.0

JDBC 表中只有一条记录。

在预览模式下或运行管道后出现以下错误:

com.streamsets.pipeline.api.base.OnRecordErrorException:HIVE_17 - 元数据记录中的信息类型缺失或无效:Record[headers='HeaderImpl [select * from shipping WHERE event_id

${offset} ORDER by event_id ;::rowCount:0:1]' data='Field[LIST_MAP:{event_id=Field[INTEGER:1], order_id=Field[INTEGER:123], event_type=Field[STRING:SHIPPED] ]}]']

0 投票
1 回答
117 浏览

javascript - StreamSets 我可以在一些脚本进程(如 JavaScript 进程)中读取运行时值吗?

我尝试在 StreamSets 中使用 JavaScript 处理器步骤。

我定义了一些环境值,可以从表达式中调用。

在 JavaScript 中,如何使用这些环境值?

你能写一个 js 例子来获取 StreamSets 中 JavaScript 中 ${type} 的值吗?

0 投票
1 回答
281 浏览

apache-kafka - StreamSets:如何使用流集解压缩文件夹

我有一个 .zip 文件,我想使用 Streamsets 提取它并将数据(.zip)放入 Kafka。

我怎样才能做到这一点?

0 投票
1 回答
158 浏览

oracle - 使用 oracle cdc 时出现可写操作错误

通过 oracle cdc 客户端连接时出现以下错误,并且我的原始数据库是只读数据库,但错误是可写操作所需的数据库。请帮忙

0 投票
1 回答
173 浏览

groovy - 流集的 Groovy 脚本,用于解析大约 1500 个字符的字符串

这是针对流集的,我正在尝试编写 groovy 脚本。我有长度为 1500 个字符的字符串。没有分隔符。模式是前 4 个字符是一些代码,接下来的 4 个字符是单词的长度,然后是单词。再一次,它是一些代码的 4 个字符和 4 个单词长度的字符,然后是单词。例如 22010005PHONE00010002IN00780004ROSE

当你解码时,它会像

2201 - 代码 0005 - 单词 PHONE 的长度 - 单词

0001 - 代码 0002 - 字的长度 IN - 字

0078 - 代码 0004 - 单词的长度 ROSE - 单词等等..

如果代码以 00 开头,我需要有关 groovy 脚本的帮助来创建字符串。因此最终的字符串将是 INROSE。

我正在尝试使用 while 循环和 str:substring。很感谢任何形式的帮助。

谢谢

预期结果“INROSE”

0 投票
1 回答
284 浏览

apache-kafka - 流集:有没有办法使用流集来计算 Kafka 主题中的记录

我使用 StreamSets 作为摄取工具,将记录从 Oracle 数据库提取到 Kafka 主题。现在,我想通过 StreamSets 本身来使用它,并且还想计算 Kafka 主题中的记录数。

我怎样才能做到这一点。请帮助

0 投票
1 回答
1819 浏览

airflow - Airflow 应该与 NiFi/StreamSets 集成吗?

我知道 Airflow 被称为工作流管理器、nifi 数据流管理器,但这究竟意味着什么?到目前为止,最好的解释是 nifi 关心数据而气流关心任务,但我不太明白这个定义,我找不到任何其他好的解释/文章/视频来解释如何集成这个系统,如果这是一个好主意,或者最好单独使用每个。

另外我在想如果它是更好的StreamSets或NiFi,我认为streamsets在UI和监控数据中看起来更好,但我听说这取决于情况,如果我只摄取数据,nifi会更好,但我又找不到关于这个问题的很多信息。

0 投票
0 回答
84 浏览

encryption - 如何使用加密阶段并提供 KMS 密钥进行加密?

我想加密 dob 字段。所以我试图在流集中使用加密阶段。我传递了密钥 ID、密钥和 KMS ARN。当我尝试验证管道时,出现以下错误:

在键提供选项卡中,

我传递了密钥 ID、密钥和 KMS ARN。

不适用

这个阶段应该编译没有错误