问题标签 [streamsets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
406 浏览

apache-kafka - Is it possible to create Kafka topics through StreamSets Data Collector (SDC)?

I am using StreamSets Data Collector (SDC) web tool to create a pipeline that transfers data from my local system to Kafka through a Kafka producer. However, I have to first manually create the topic in which I want to store my data. Is it possible to create the topic via StreamSets?

0 投票
2 回答
81 浏览

sql - SQL查询优化

*谁能帮我优化查询。我在称为流集的 ETL 中使用此查询,当我运行非常慢的流集管道时,它在 6 分钟内产生 70 条记录。我们从 SSIS 包中获取此查询并使用左外连接加入每个表。我需要对其进行优化,使其每分钟在流集中获取至少 1000 条记录 *

0 投票
1 回答
81 浏览

apache - 我可以使用 StreamSet 的任何 API 映射表列吗?

我需要在 Stream Set 管道中映射 10000 列表,并且需要从(csv)文件向其发送数据。因此,通过提及列名来映射流集应用程序中的每一列对于 10000 列来说是一项非常艰巨的任务。

那么任何人都可以回答实现它的其他简单方法是什么?
或者我可以通过使用它的 REST API 来实现它吗?

提前致谢。

0 投票
2 回答
1131 浏览

timezone - StreamSets Data Collector 从 Kafka 读取不正确的时间

StreamSets 数据收集器似乎读取了不正确的日期时间值。

我尝试从 Confluent 中阅读简单主题:当我使用 Landoop Kafka 主题检查日期时间值(以毫秒为单位)时 - 它显示正确的日期时间,但是当我在 StreamSets 中使用 Kafka Consumer 0.10.0.0 阅读它时 - 它给了我一个小 3 小时 20 分钟的日期时间. 我的实际时区是 GMT+03:00。

我的 SDC 设置有正确的时区,服务器操作系统也有正确的时区,即使 SDC 函数中的 time:now() 给出正确的结果!

任何猜测为什么?

更新 - 导出我的工作流程

0 投票
2 回答
1714 浏览

http - StreamSets HTTP 客户端

我正在 Cloudera Distribution 上使用 StreamSets,试图从该网站http://files.data.gouv.fr/sirene/摄取一些数据

我在选择 HTTP 客户端和 Hadoop FS 目标的参数时遇到了一些问题。

https://image.noelshack.com/fichiers/2017/44/2/1509457504-streamsets-f.jpg

我收到此错误:HTTP_00 - 无法解析记录:java.io.IOException: org.apache.commons.compress.archivers.ArchiveException: No Archiver found for the stream signature

我会告诉你我的配置。

HTTP客户端:

一般的

名称:HTTP 客户端 INSEE

描述:客户端 HTTP SIRENE

记录错误:发送到错误

HTTP

资源网址: http: //files.data.gouv.fr/sirene/

标题:sirene_:sirene_

模式:流媒体

按状态操作

HTTP 统计代码:500 | 状态操作:使用指数退避重试 |

基本退避间隔(毫秒):1000 | 最大重试次数:10

HTTP 方法:GET

身体时区 : UTC (UTC)

请求传输编码:缓冲

HTTP 压缩:无

连接超时:0

读取超时:0

身份验证类型:无

使用 OAuth 2

使用代理服务器

最大批量(记录):1000

批处理等待时间(毫秒):2000

分页

分页模式:无

TLS

使用TLS

超时处理

超时操作:立即重试

最大重试次数:10

数据格式

日期格式:分隔

压缩格式:存档

压缩目录中的文件名模式:*.csv

分隔符格式类型:自定义

标题行:带标题行

最大记录长度(字符):1024

允许额外的列

分隔符:分号

转义字符:其他\

引用字符:其他“

根字段类型:列表映射

要跳过的行:0

解析 NULL

字符集:UTF-8

忽略控制字符

Hadoop FS 目标:

一般的

名称:Hadoop FS 1

描述:写入HDFS

舞台图书馆:CDH 5.7.6

制作活动

必填字段

前提条件

记录错误:发送到错误

输出文件

文件类型:整个文件

文件前缀

标题中的目录

目录模板:/user/pap/StreamSets/sirene/

数据时区:UTC (UTC)

时间基准:${time:now()}

使用滚动属性

验证 HDFS 权限:开

跳过文件恢复:开

迟到的记录

延迟记录时间限制(秒):${1 * HOURS}

后期记录处理:发送到错误

数据格式

数据格式:整个文件

文件名表达式:${record:value('/fileInfo/filename')}

权限表达式:777

文件存在:覆盖

在事件中包含校验和

...那我做错了什么?:(

0 投票
1 回答
394 浏览

hadoop - 在流集中调度 JDBC 使用者作业

我需要安排 JDBC 使用者作业在每天早上 5 点运行,据我所知,我可以在早上 5 点开始作业时让作业在早上 5 点运行,并在查询间隔中设置 24 小时。

但是我需要安排第一个实例在早上 5 点开始而不手动启动它(我懒得早上 5 点起床:P)有没有办法做到这一点?

0 投票
1 回答
99 浏览

streamsets - 如何区分来自 StreamSets 中多个 HTTP 客户端来源的数据

我有 6 个管道,每个管道都有连接到 SDCRPC 目标的 HTTP 客户端源,我的计划是创建另一个具有 SDCRPC 源和目标的管道到 hive 表。

我的问题是在连接到 SDCRPC 源之后如何区分数据,因为每个 HTTP 管道都会提取与一个相同表相关的数据。

任何示例或在线资源将不胜感激。

0 投票
1 回答
1111 浏览

cloudera-quickstart-vm - 什么是 StreamSets 架构?

即使在完成教程之后,我对架构也不是很清楚。我们如何在分布式环境中扩展流集?比方说,我们的输入数据速度从源头开始增加,那么如何确保 SDC 不会出现性能问题?将运行多少个守护进程?是 Master worker 架构还是对等架构?

如果在多台机器上运行多个守护进程(例如 YARN 中的一个 sdc 和一个 NodeManager),那么它将如何显示数据的集中视图,即总记录数等?

另外请让我知道 Dataflow 性能管理器的架构。该产品中有哪些守护进程?

0 投票
1 回答
25 浏览

streamsets - 在集群中的另一个节点上访问流集 Web UI,而不是在安装位置,它“查看”哪个文件系统?

我有一个主机集群,并按照 RPM文档hadoop (MapR)在其中一个节点(比如 node002)上安装了流集。但是,我正在从另一个节点 node001 访问 Web UI。data collector

我的问题是,当我指定文件路径(例如原始目录)时,Web UI 将引用哪个文件系统?例如。如果我将原始目录设置为/home/myuser/mydata,则在 Web UI 中创建的管道会在 node001 或 node002 中查找该目录吗?新使用流集,所以更详细的答案将不胜感激。谢谢。

**最终我问这个是因为我目前在尝试遵循文档教程"FileNotFound"并尝试调试情况时遇到错误。"permission denied"

0 投票
1 回答
581 浏览

streamsets - 无法访问流集管道创建者中本地 FS 上的非公共目录

流集的新手。按照文档教程,得到

尝试将目标位置设置为local FS目录并预览管道时出错(基本上是说文件无法访问或不存在),但相关目录的权限是drwxrwxr-x. 2 mapr mapr. 最终通过将目标文件夹权限设置为可公开写入 ( $chmod o+w /path/to/dir) 找到了解决方法。然而,启动sdc服务的用户(当我按照安装说明进行操作时)应该对该目录具有写权限(是root)。

我设置了 sdc用户环境。变量。使用名称“mapr”(我试图访问的目录的所有者),那么为什么我被拒绝了?当我设置环境时,这里发生了什么。瓦尔斯。对于 sdc (因为它似乎没有做任何事情)?

这是我的/opt/streamsets-datacollector/libexec/sdcd-env.sh文件的一个片段:

所以我的问题是,是什么决定了sdc服务的权限(我假设是流集 Web UI 用于访问 FS 位置的内容)?任何解释或特定文档的链接将不胜感激。谢谢。