问题标签 [streamsets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
357 浏览

hadoop - Streamsets Mapr FS 起点/终点。KerberosPrincipal 异常(使用 hadoop 模拟(在 mapr 6.0 中))

我正在尝试做一个从 amapr fs origin到 a的简单数据移动mapr fs destination(这不是我的用例,只是为了测试目的而做这个简单的移动)。尝试使用validate此管道时,我在暂存区域看到的错误消息是:

使用该字段的不同变体hadoop fs URI(例如 mfs:///mapr/mycluster.cluster.local、maprfs:///mycluster.cluster.local)似乎没有帮助。尝试验证后查看日志,我看到了

但是,据我所知,系统没有运行Keberos,所以这个错误信息让我有点困惑。#export SDC_JAVA_OPTS="-Dmaprlogin.password.enabled=true ${SDC_JAVA_OPTS}"sdc 环境变量文件中取消对本机 mapr 身份验证的注释似乎对问题没有帮助(即使在运行流集映射器设置脚本之前重新安装并注释此行)。

有谁知道发生了什么以及如何解决它?谢谢。

0 投票
2 回答
2361 浏览

controller - Kafka:更改活动控制器时无法检索主题的元数据

我有一个带有集群化 Kafka 服务的 Cloudera 集群。我有两个 Kafka 控制器实例,比如说 C1 和 C2。

当 C1 是活动控制器时,一切似乎都正常。当由于某种原因,C2 成为主动控制器。通过 kafka-console-producer 发送的一些已发送消息没有被 kafka-console-consumer 接收(发送的消息中有一半没有被消费者接收,每两条消息一条)。我不确定这是否是由于活动控制器的更改而无法读取某些分区。

另外,如果我关闭 C1 并且只保持 C2 运行,我还有另一个问题。如果我尝试从 kafka 开始读取以前工作的 Streamsets 流,我会收到错误消息“无法检索主题 XXXX 的元数据”,似乎主题元数据仅存在于 C1 中,在这种情况下它处于脱机状态。

如果我在关闭第一个代理后打开 kafka-console-consumer,则会收到以下异常:

尝试将kafka与多个经纪人一起使用时我做错了什么?

0 投票
0 回答
1433 浏览

java - Jersey JAVA REST 客户端为 POST 请求提供错误 500“BAD Request”,而 POSTMAN 能够 POST 到相同的 Restful API

我正在尝试通过 JAVA Jersey REST 客户端发布表单数据,但我收到了响应代码500和相应的异常:

来自 POSTMAN(Chrome 扩展)的相同请求成功运行。

我正在向 StreamSets Data Collector API 发出 POST 请求。

下面是我的代码

}

这是包含所有标头和身份验证的 POSTMAN 的屏幕截图,

邮递员截图

邮递员截图

邮递员截图

邮递员截图

我不知道这是形成多部分的问题,还是服务器端的问题,如果是前者而不是我到底哪里出错了?

PS:我通过添加信任证书解决了 SSL 证书错误。

更新 1

在我深入研究之后,我得到了以下错误堆栈跟踪。

0 投票
1 回答
380 浏览

jdbc - StreamSets JDBC Producer CDC - 更改日志格式错误编辑

我的管道背后的想法是反映从 MySQL 到 PostgreSQL 数据库的变化。将来我还会有一个 Oracle 到 PostgreSQL 的复制。

因此,从这个论坛和 SDC 文档中,我看到正确的做法是使用 CDC 起源。所以我使用的是 MySQL 二进制日志。我能够构建一个处理 3 个 CRUD 操作(INSERT、DELETE、UPDATE)的管道,但它使用了多个处理器(字段移除器、扁平化器、流选择器、字段重命名器等):

SDC 管道 - CRUD 操作

从我在 JDBC Producer 的配置中看到的,这个目的地应该能够直接从从 MySQL 二进制日志源读取的流中处理 MySQL 二进制日志,对吧?只需将 JDBC Producer 中的 Change Log Format 设置为 MySQL Binary Log:

SDC 管道 - MySQL 二进制日志选项

但即使我这样做了,管道运行没有错误,但 PostgreSQL 目标中的数据没有更改。

我错过了什么吗?是否有必要在将来自 MySQL 二进制日志源的流发送到 JDBC Producer 之前对其进行处理?如果是这样,必须做什么?

0 投票
0 回答
282 浏览

streamsets - StreamSets 数据收集器:地址已在使用中

首先,我是 Streamsets 的新手。

我按照 Systemd 系统的说明安装了完整的 Tarball tar,因为我正在使用 Ubuntu 16.04 VM(主机是 Windows 10)。

它有一段时间运行良好,但是当我重新启动我的虚拟机时,SDC 停止工作。我删除了我的虚拟机并尝试使用新的虚拟机,现在启动 sdc 服务时出现以下错误:

当我查看第一个选项时,我收到以下错误消息:

我在安装的时候让默认配置,所以监听端口是18630。当我查看运行进程看哪个使用这个端口时,没有(lof -i :18630 | grep LISTEN)。主机上也一样。

有人对此有任何想法吗?

0 投票
0 回答
525 浏览

installation - Streamsets 安装:DataCollector UI 端口 18630 未打开

我正在尝试在单节点 Hadoop 盒(Hortonworks Sandbox)上安装 Streamsets。Streamsets网站上的安装过程非常简单

下载核心 tar 文件,解压,然后运行“streamsets-datacollector-3.1.2.0/bin/streamsets dc”以在端口 18630 上启动 DataCollector。

不知何故,此端口从未打开,因此连接失败。我使用 netcat 来验证此端口是否保持关闭。我已经阅读了日志,它确实显示“StandaloneAndClusterPipelineManager - 停止生产管道管理器”,但我不确定这是否是一个问题或如何解决它。

请帮帮我。

谢谢

阿德尔

命令行输出:

日志文件

0 投票
0 回答
221 浏览

curl - 使用 Streamsets 连接到 Google Analytics

我正在尝试将 Streamsets 连接到 Google Analytics。但是我无法设置它。使用常规 CURL 请求,我将执行以下操作:

步骤 1) 前往以下链接获取授权码:

步骤 2) 执行发布请求以获取访问和更新令牌

步骤 3)

执行实际的 curl 请求:

在 Streamsets 中,我尝试像这样设置它:(我使用图像是因为它更容易理解。)

1) 我将资源 URL 与步骤 3 相同,在那里我获取数据

2)Request body也和第3步一样

3) 这是 OAuth2 屏幕。我模糊了凭据。

3b)我尝试了什么:我也尝试将凭据授予类型与客户端 ID 和客户端密码一起使用。

但是我仍然不知道如何获取我的数据。我没有收到任何输出,并且使用 CURL 请求获取数据在我看来像是一个 3 步过程,而不是 2 步第一步(因为它似乎在 Streamsets 中)。Streamsets 能够获取这个还是我应该编写自己的起源?因为对我来说,乍一看似乎它无法做到这一点。我已经阅读了 Streamsets 和 Google Analytics 手册,但它们并没有真正帮助我很多。

先感谢您。

0 投票
1 回答
75 浏览

cloudera-cdh - 如何使用激活阶段停止安装 cdh 的 STREAMSETS 包裹

cm api:集群:7180/ap1/v14/clusters/cluster/parcels/products/STREAMSETS_DATACOLLECTOR/versions/3.2.0.0

改写:</p>

现在它总是在激活,我无法阻止它!

像这样

在此处输入图像描述

在此处输入图像描述

请帮我!!

ps:使用api: cluster:7180/ap1/v14/clusters/cluster/parcels/products/STREAMSETS_DATACOLLECTOR/versions/3.2.0.0/commands/deactive不能停止;

现在已经解决了。使用 curl -u 用户名:密码 -X POST "...cm api"

0 投票
2 回答
710 浏览

java - 如何从 StreamSets Control Hub API 请求身份验证令牌?

我正在尝试构建一个 JAVA 客户端以 POST 到 RESTApi,但是,这样做时我收到错误“用户未通过身份验证”。

在浏览 API 服务文档时,我发现在调用 API 之前,我必须获取一个 Auth 令牌,就像它在步骤 1 中所说的那样,然后在任何后续调用 API 中使用该令牌。

文件是这样说的:

现在,我无法在 JAVA 中实现相同的目标。

我正在使用泽西图书馆,这是我到目前为止的代码,

我需要帮助来获取 Auth Token,就像在第一个 Curl 命令中所做的那样,我可以创建第二个 Post 命令。

0 投票
2 回答
1657 浏览

javascript - StreamSets 将文本转换为 Json

我正在尝试将文本数据从本地目录摄取到HDFS,在摄取之前我需要将文本转换为有效的 json。为此,我正在使用 JavaScript Evaluator 处理器。

在 javascript 评估器中,我无法读取任何记录。

这是我的示例代码:

除了 JavaScript 评估器还有其他更好的选择吗?

这是我的示例输入数据:

更新:

根据@metadaddy 的回答,我尝试使用安装了 JavaScript 的 Groovy。对于@metadaddy 在他的回答中显示的相同数据,我得到了以下异常。

这是我的错误截图。在此处输入图像描述