“streamsets”的相关标签问题

0 投票

1 回答

406 浏览

apache-kafka - Is it possible to create Kafka topics through StreamSets Data Collector (SDC)?

I am using StreamSets Data Collector (SDC) web tool to create a pipeline that transfers data from my local system to Kafka through a Kafka producer. However, I have to first manually create the topic in which I want to store my data. Is it possible to create the topic via StreamSets?

apache-kafka streamsets

2017-09-18T05:24:21.147

0 投票

2 回答

81 浏览

sql - SQL查询优化

*谁能帮我优化查询。我在称为流集的 ETL 中使用此查询，当我运行非常慢的流集管道时，它在 6 分钟内产生 70 条记录。我们从 SSIS 包中获取此查询并使用左外连接加入每个表。我需要对其进行优化，使其每分钟在流集中获取至少 1000 条记录 *

2017-09-22T14:28:12.870

0 投票

1 回答

81 浏览

apache - 我可以使用 StreamSet 的任何 API 映射表列吗？

我需要在 Stream Set 管道中映射 10000 列表，并且需要从（csv）文件向其发送数据。因此，通过提及列名来映射流集应用程序中的每一列对于 10000 列来说是一项非常艰巨的任务。

那么任何人都可以回答实现它的其他简单方法是什么？
或者我可以通过使用它的 REST API 来实现它吗？

提前致谢。

apache bigdata streamsets

2017-10-06T09:30:05.537

0 投票

2 回答

1131 浏览

timezone - StreamSets Data Collector 从 Kafka 读取不正确的时间

StreamSets 数据收集器似乎读取了不正确的日期时间值。

我尝试从 Confluent 中阅读简单主题：当我使用 Landoop Kafka 主题检查日期时间值（以毫秒为单位）时 - 它显示正确的日期时间，但是当我在 StreamSets 中使用 Kafka Consumer 0.10.0.0 阅读它时 - 它给了我一个小 3 小时 20 分钟的日期时间. 我的实际时区是 GMT+03:00。

我的 SDC 设置有正确的时区，服务器操作系统也有正确的时区，即使 SDC 函数中的 time:now() 给出正确的结果！

任何猜测为什么？

更新 - 导出我的工作流程

timezone kafka-consumer-api confluent-platform streamsets

2017-10-16T18:21:30.367

0 投票

2 回答

1714 浏览

http - StreamSets HTTP 客户端

我正在 Cloudera Distribution 上使用 StreamSets，试图从该网站http://files.data.gouv.fr/sirene/摄取一些数据

我在选择 HTTP 客户端和 Hadoop FS 目标的参数时遇到了一些问题。

https://image.noelshack.com/fichiers/2017/44/2/1509457504-streamsets-f.jpg

我收到此错误：HTTP_00 - 无法解析记录：java.io.IOException: org.apache.commons.compress.archivers.ArchiveException: No Archiver found for the stream signature

我会告诉你我的配置。

HTTP客户端：

一般的

名称：HTTP 客户端 INSEE

描述：客户端 HTTP SIRENE

记录错误：发送到错误

HTTP

资源网址： http: //files.data.gouv.fr/sirene/

标题：sirene_：sirene_

模式：流媒体

按状态操作

HTTP 统计代码：500 | 状态操作：使用指数退避重试 |

基本退避间隔（毫秒）：1000 | 最大重试次数：10

HTTP 方法：GET

身体时区 : UTC (UTC)

请求传输编码：缓冲

HTTP 压缩：无

连接超时：0

读取超时：0

身份验证类型：无

使用 OAuth 2

使用代理服务器

最大批量（记录）：1000

批处理等待时间（毫秒）：2000

分页

分页模式：无

TLS

使用TLS

超时处理

超时操作：立即重试

最大重试次数：10

数据格式

日期格式：分隔

压缩格式：存档

压缩目录中的文件名模式：*.csv

分隔符格式类型：自定义

标题行：带标题行

最大记录长度（字符）：1024

允许额外的列

分隔符：分号

转义字符：其他\

引用字符：其他“

根字段类型：列表映射

要跳过的行：0

解析 NULL

字符集：UTF-8

忽略控制字符

Hadoop FS 目标：

一般的

名称：Hadoop FS 1

描述：写入HDFS

舞台图书馆：CDH 5.7.6

制作活动

必填字段

前提条件

记录错误：发送到错误

输出文件

文件类型：整个文件

文件前缀

标题中的目录

目录模板：/user/pap/StreamSets/sirene/

数据时区：UTC (UTC)

时间基准：${time:now()}

使用滚动属性

验证 HDFS 权限：开

跳过文件恢复：开

迟到的记录

延迟记录时间限制（秒）：${1 * HOURS}

后期记录处理：发送到错误

数据格式

数据格式：整个文件

文件名表达式：${record:value('/fileInfo/filename')}

权限表达式：777

文件存在：覆盖

在事件中包含校验和

...那我做错了什么？:(

http client hdfs streamsets

2017-10-31T13:53:31.167

0 投票

1 回答

394 浏览

hadoop - 在流集中调度 JDBC 使用者作业

我需要安排 JDBC 使用者作业在每天早上 5 点运行，据我所知，我可以在早上 5 点开始作业时让作业在早上 5 点运行，并在查询间隔中设置 24 小时。

但是我需要安排第一个实例在早上 5 点开始而不手动启动它（我懒得早上 5 点起床：P）有没有办法做到这一点？

hadoop cloudera streamsets

2017-11-24T21:11:48.830

0 投票

1 回答

99 浏览

streamsets - 如何区分来自 StreamSets 中多个 HTTP 客户端来源的数据

我有 6 个管道，每个管道都有连接到 SDCRPC 目标的 HTTP 客户端源，我的计划是创建另一个具有 SDCRPC 源和目标的管道到 hive 表。

我的问题是在连接到 SDCRPC 源之后如何区分数据，因为每个 HTTP 管道都会提取与一个相同表相关的数据。

任何示例或在线资源将不胜感激。

streamsets

2017-12-07T14:42:38.280

0 投票

1 回答

1111 浏览

cloudera-quickstart-vm - 什么是 StreamSets 架构？

即使在完成教程之后，我对架构也不是很清楚。我们如何在分布式环境中扩展流集？比方说，我们的输入数据速度从源头开始增加，那么如何确保 SDC 不会出现性能问题？将运行多少个守护进程？是 Master worker 架构还是对等架构？

如果在多台机器上运行多个守护进程（例如 YARN 中的一个 sdc 和一个 NodeManager），那么它将如何显示数据的集中视图，即总记录数等？

另外请让我知道 Dataflow 性能管理器的架构。该产品中有哪些守护进程？

cloudera-quickstart-vm streamsets

2017-12-07T16:47:46.990

0 投票

1 回答

25 浏览

streamsets - 在集群中的另一个节点上访问流集 Web UI，而不是在安装位置，它“查看”哪个文件系统？

我有一个主机集群，并按照 RPM文档hadoop (MapR)在其中一个节点（比如 node002）上安装了流集。但是，我正在从另一个节点 node001 访问 Web UI。data collector

我的问题是，当我指定文件路径（例如原始目录）时，Web UI 将引用哪个文件系统？例如。如果我将原始目录设置为/home/myuser/mydata，则在 Web UI 中创建的管道会在 node001 或 node002 中查找该目录吗？新使用流集，所以更详细的答案将不胜感激。谢谢。

**最终我问这个是因为我目前在尝试遵循文档教程"FileNotFound"并尝试调试情况时遇到错误。"permission denied"

streamsets

2018-01-02T20:48:09.640

0 投票

1 回答

581 浏览

streamsets - 无法访问流集管道创建者中本地 FS 上的非公共目录

流集的新手。按照文档教程，得到

尝试将目标位置设置为local FS目录并预览管道时出错（基本上是说文件无法访问或不存在），但相关目录的权限是drwxrwxr-x. 2 mapr mapr. 最终通过将目标文件夹权限设置为可公开写入 ( $chmod o+w /path/to/dir) 找到了解决方法。然而，启动sdc服务的用户（当我按照安装说明进行操作时）应该对该目录具有写权限（是root）。

我设置了 sdc用户环境。变量。使用名称“mapr”（我试图访问的目录的所有者），那么为什么我被拒绝了？当我设置环境时，这里发生了什么。瓦尔斯。对于 sdc （因为它似乎没有做任何事情）？

这是我的/opt/streamsets-datacollector/libexec/sdcd-env.sh文件的一个片段：

所以我的问题是，是什么决定了sdc服务的权限（我假设是流集 Web UI 用于访问 FS 位置的内容）？任何解释或特定文档的链接将不胜感激。谢谢。

streamsets

2018-01-02T21:21:13.050

问题标签 [streamsets]

Reference