问题标签 [streamsets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-kafka - Is it possible to create Kafka topics through StreamSets Data Collector (SDC)?
I am using StreamSets Data Collector (SDC) web tool to create a pipeline that transfers data from my local system to Kafka through a Kafka producer. However, I have to first manually create the topic in which I want to store my data. Is it possible to create the topic via StreamSets?
sql - SQL查询优化
*谁能帮我优化查询。我在称为流集的 ETL 中使用此查询,当我运行非常慢的流集管道时,它在 6 分钟内产生 70 条记录。我们从 SSIS 包中获取此查询并使用左外连接加入每个表。我需要对其进行优化,使其每分钟在流集中获取至少 1000 条记录 *
apache - 我可以使用 StreamSet 的任何 API 映射表列吗?
我需要在 Stream Set 管道中映射 10000 列表,并且需要从(csv)文件向其发送数据。因此,通过提及列名来映射流集应用程序中的每一列对于 10000 列来说是一项非常艰巨的任务。
那么任何人都可以回答实现它的其他简单方法是什么?
或者我可以通过使用它的 REST API 来实现它吗?
提前致谢。
timezone - StreamSets Data Collector 从 Kafka 读取不正确的时间
StreamSets 数据收集器似乎读取了不正确的日期时间值。
我尝试从 Confluent 中阅读简单主题:当我使用 Landoop Kafka 主题检查日期时间值(以毫秒为单位)时 - 它显示正确的日期时间,但是当我在 StreamSets 中使用 Kafka Consumer 0.10.0.0 阅读它时 - 它给了我一个小 3 小时 20 分钟的日期时间. 我的实际时区是 GMT+03:00。
我的 SDC 设置有正确的时区,服务器操作系统也有正确的时区,即使 SDC 函数中的 time:now() 给出正确的结果!
任何猜测为什么?
更新 - 导出我的工作流程
http - StreamSets HTTP 客户端
我正在 Cloudera Distribution 上使用 StreamSets,试图从该网站http://files.data.gouv.fr/sirene/摄取一些数据
我在选择 HTTP 客户端和 Hadoop FS 目标的参数时遇到了一些问题。
https://image.noelshack.com/fichiers/2017/44/2/1509457504-streamsets-f.jpg
我收到此错误:HTTP_00 - 无法解析记录:java.io.IOException: org.apache.commons.compress.archivers.ArchiveException: No Archiver found for the stream signature
我会告诉你我的配置。
HTTP客户端:
一般的
名称:HTTP 客户端 INSEE
描述:客户端 HTTP SIRENE
记录错误:发送到错误
HTTP
资源网址: http: //files.data.gouv.fr/sirene/
标题:sirene_:sirene_
模式:流媒体
按状态操作
HTTP 统计代码:500 | 状态操作:使用指数退避重试 |
基本退避间隔(毫秒):1000 | 最大重试次数:10
HTTP 方法:GET
身体时区 : UTC (UTC)
请求传输编码:缓冲
HTTP 压缩:无
连接超时:0
读取超时:0
身份验证类型:无
使用 OAuth 2
使用代理服务器
最大批量(记录):1000
批处理等待时间(毫秒):2000
分页
分页模式:无
TLS
使用TLS
超时处理
超时操作:立即重试
最大重试次数:10
数据格式
日期格式:分隔
压缩格式:存档
压缩目录中的文件名模式:*.csv
分隔符格式类型:自定义
标题行:带标题行
最大记录长度(字符):1024
允许额外的列
分隔符:分号
转义字符:其他\
引用字符:其他“
根字段类型:列表映射
要跳过的行:0
解析 NULL
字符集:UTF-8
忽略控制字符
Hadoop FS 目标:
一般的
名称:Hadoop FS 1
描述:写入HDFS
舞台图书馆:CDH 5.7.6
制作活动
必填字段
前提条件
记录错误:发送到错误
输出文件
文件类型:整个文件
文件前缀
标题中的目录
目录模板:/user/pap/StreamSets/sirene/
数据时区:UTC (UTC)
时间基准:${time:now()}
使用滚动属性
验证 HDFS 权限:开
跳过文件恢复:开
迟到的记录
延迟记录时间限制(秒):${1 * HOURS}
后期记录处理:发送到错误
数据格式
数据格式:整个文件
文件名表达式:${record:value('/fileInfo/filename')}
权限表达式:777
文件存在:覆盖
在事件中包含校验和
...那我做错了什么?:(
hadoop - 在流集中调度 JDBC 使用者作业
我需要安排 JDBC 使用者作业在每天早上 5 点运行,据我所知,我可以在早上 5 点开始作业时让作业在早上 5 点运行,并在查询间隔中设置 24 小时。
但是我需要安排第一个实例在早上 5 点开始而不手动启动它(我懒得早上 5 点起床:P)有没有办法做到这一点?
streamsets - 如何区分来自 StreamSets 中多个 HTTP 客户端来源的数据
我有 6 个管道,每个管道都有连接到 SDCRPC 目标的 HTTP 客户端源,我的计划是创建另一个具有 SDCRPC 源和目标的管道到 hive 表。
我的问题是在连接到 SDCRPC 源之后如何区分数据,因为每个 HTTP 管道都会提取与一个相同表相关的数据。
任何示例或在线资源将不胜感激。
cloudera-quickstart-vm - 什么是 StreamSets 架构?
即使在完成教程之后,我对架构也不是很清楚。我们如何在分布式环境中扩展流集?比方说,我们的输入数据速度从源头开始增加,那么如何确保 SDC 不会出现性能问题?将运行多少个守护进程?是 Master worker 架构还是对等架构?
如果在多台机器上运行多个守护进程(例如 YARN 中的一个 sdc 和一个 NodeManager),那么它将如何显示数据的集中视图,即总记录数等?
另外请让我知道 Dataflow 性能管理器的架构。该产品中有哪些守护进程?
streamsets - 在集群中的另一个节点上访问流集 Web UI,而不是在安装位置,它“查看”哪个文件系统?
我有一个主机集群,并按照 RPM文档hadoop (MapR)
在其中一个节点(比如 node002)上安装了流集。但是,我正在从另一个节点 node001 访问 Web UI。data collector
我的问题是,当我指定文件路径(例如原始目录)时,Web UI 将引用哪个文件系统?例如。如果我将原始目录设置为/home/myuser/mydata
,则在 Web UI 中创建的管道会在 node001 或 node002 中查找该目录吗?新使用流集,所以更详细的答案将不胜感激。谢谢。
**最终我问这个是因为我目前在尝试遵循文档教程"FileNotFound"
并尝试调试情况时遇到错误。"permission denied"
streamsets - 无法访问流集管道创建者中本地 FS 上的非公共目录
流集的新手。按照文档教程,得到
尝试将目标位置设置为local FS
目录并预览管道时出错(基本上是说文件无法访问或不存在),但相关目录的权限是drwxrwxr-x. 2 mapr mapr
. 最终通过将目标文件夹权限设置为可公开写入 ( $chmod o+w /path/to/dir
) 找到了解决方法。然而,启动sdc
服务的用户(当我按照安装说明进行操作时)应该对该目录具有写权限(是root
)。
我设置了 sdc用户环境。变量。使用名称“mapr”(我试图访问的目录的所有者),那么为什么我被拒绝了?当我设置环境时,这里发生了什么。瓦尔斯。对于 sdc (因为它似乎没有做任何事情)?
这是我的/opt/streamsets-datacollector/libexec/sdcd-env.sh
文件的一个片段:
所以我的问题是,是什么决定了sdc
服务的权限(我假设是流集 Web UI 用于访问 FS 位置的内容)?任何解释或特定文档的链接将不胜感激。谢谢。