问题标签 [streamsets]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Streamsets Mapr FS 起点/终点。KerberosPrincipal 异常(使用 hadoop 模拟(在 mapr 6.0 中))
我正在尝试做一个从 amapr fs origin
到 a的简单数据移动mapr fs destination
(这不是我的用例,只是为了测试目的而做这个简单的移动)。尝试使用validate
此管道时,我在暂存区域看到的错误消息是:
使用该字段的不同变体hadoop fs URI
(例如 mfs:///mapr/mycluster.cluster.local、maprfs:///mycluster.cluster.local)似乎没有帮助。尝试验证后查看日志,我看到了
但是,据我所知,系统没有运行Keberos
,所以这个错误信息让我有点困惑。#export SDC_JAVA_OPTS="-Dmaprlogin.password.enabled=true ${SDC_JAVA_OPTS}"
在sdc 环境变量文件中取消对本机 mapr 身份验证的注释似乎对问题没有帮助(即使在运行流集映射器设置脚本之前重新安装并注释此行)。
有谁知道发生了什么以及如何解决它?谢谢。
controller - Kafka:更改活动控制器时无法检索主题的元数据
我有一个带有集群化 Kafka 服务的 Cloudera 集群。我有两个 Kafka 控制器实例,比如说 C1 和 C2。
当 C1 是活动控制器时,一切似乎都正常。当由于某种原因,C2 成为主动控制器。通过 kafka-console-producer 发送的一些已发送消息没有被 kafka-console-consumer 接收(发送的消息中有一半没有被消费者接收,每两条消息一条)。我不确定这是否是由于活动控制器的更改而无法读取某些分区。
另外,如果我关闭 C1 并且只保持 C2 运行,我还有另一个问题。如果我尝试从 kafka 开始读取以前工作的 Streamsets 流,我会收到错误消息“无法检索主题 XXXX 的元数据”,似乎主题元数据仅存在于 C1 中,在这种情况下它处于脱机状态。
如果我在关闭第一个代理后打开 kafka-console-consumer,则会收到以下异常:
尝试将kafka与多个经纪人一起使用时我做错了什么?
jdbc - StreamSets JDBC Producer CDC - 更改日志格式错误编辑
我的管道背后的想法是反映从 MySQL 到 PostgreSQL 数据库的变化。将来我还会有一个 Oracle 到 PostgreSQL 的复制。
因此,从这个论坛和 SDC 文档中,我看到正确的做法是使用 CDC 起源。所以我使用的是 MySQL 二进制日志。我能够构建一个处理 3 个 CRUD 操作(INSERT、DELETE、UPDATE)的管道,但它使用了多个处理器(字段移除器、扁平化器、流选择器、字段重命名器等):
从我在 JDBC Producer 的配置中看到的,这个目的地应该能够直接从从 MySQL 二进制日志源读取的流中处理 MySQL 二进制日志,对吧?只需将 JDBC Producer 中的 Change Log Format 设置为 MySQL Binary Log:
但即使我这样做了,管道运行没有错误,但 PostgreSQL 目标中的数据没有更改。
我错过了什么吗?是否有必要在将来自 MySQL 二进制日志源的流发送到 JDBC Producer 之前对其进行处理?如果是这样,必须做什么?
streamsets - StreamSets 数据收集器:地址已在使用中
首先,我是 Streamsets 的新手。
我按照 Systemd 系统的说明安装了完整的 Tarball tar,因为我正在使用 Ubuntu 16.04 VM(主机是 Windows 10)。
它有一段时间运行良好,但是当我重新启动我的虚拟机时,SDC 停止工作。我删除了我的虚拟机并尝试使用新的虚拟机,现在启动 sdc 服务时出现以下错误:
当我查看第一个选项时,我收到以下错误消息:
我在安装的时候让默认配置,所以监听端口是18630。当我查看运行进程看哪个使用这个端口时,没有(lof -i :18630 | grep LISTEN
)。主机上也一样。
有人对此有任何想法吗?
installation - Streamsets 安装:DataCollector UI 端口 18630 未打开
我正在尝试在单节点 Hadoop 盒(Hortonworks Sandbox)上安装 Streamsets。Streamsets网站上的安装过程非常简单
下载核心 tar 文件,解压,然后运行“streamsets-datacollector-3.1.2.0/bin/streamsets dc”以在端口 18630 上启动 DataCollector。
不知何故,此端口从未打开,因此连接失败。我使用 netcat 来验证此端口是否保持关闭。我已经阅读了日志,它确实显示“StandaloneAndClusterPipelineManager - 停止生产管道管理器”,但我不确定这是否是一个问题或如何解决它。
请帮帮我。
谢谢
阿德尔
命令行输出:
日志文件
curl - 使用 Streamsets 连接到 Google Analytics
我正在尝试将 Streamsets 连接到 Google Analytics。但是我无法设置它。使用常规 CURL 请求,我将执行以下操作:
步骤 1) 前往以下链接获取授权码:
步骤 2) 执行发布请求以获取访问和更新令牌
步骤 3)
执行实际的 curl 请求:
在 Streamsets 中,我尝试像这样设置它:(我使用图像是因为它更容易理解。)
3b)我尝试了什么:我也尝试将凭据授予类型与客户端 ID 和客户端密码一起使用。
但是我仍然不知道如何获取我的数据。我没有收到任何输出,并且使用 CURL 请求获取数据在我看来像是一个 3 步过程,而不是 2 步第一步(因为它似乎在 Streamsets 中)。Streamsets 能够获取这个还是我应该编写自己的起源?因为对我来说,乍一看似乎它无法做到这一点。我已经阅读了 Streamsets 和 Google Analytics 手册,但它们并没有真正帮助我很多。
先感谢您。
cloudera-cdh - 如何使用激活阶段停止安装 cdh 的 STREAMSETS 包裹
cm api:集群:7180/ap1/v14/clusters/cluster/parcels/products/STREAMSETS_DATACOLLECTOR/versions/3.2.0.0
改写:</p>
现在它总是在激活,我无法阻止它!
像这样
请帮我!!
ps:使用api: cluster:7180/ap1/v14/clusters/cluster/parcels/products/STREAMSETS_DATACOLLECTOR/versions/3.2.0.0/commands/deactive不能停止;
现在已经解决了。使用 curl -u 用户名:密码 -X POST "...cm api"
java - 如何从 StreamSets Control Hub API 请求身份验证令牌?
我正在尝试构建一个 JAVA 客户端以 POST 到 RESTApi,但是,这样做时我收到错误“用户未通过身份验证”。
在浏览 API 服务文档时,我发现在调用 API 之前,我必须获取一个 Auth 令牌,就像它在步骤 1 中所说的那样,然后在任何后续调用 API 中使用该令牌。
文件是这样说的:
现在,我无法在 JAVA 中实现相同的目标。
我正在使用泽西图书馆,这是我到目前为止的代码,
我需要帮助来获取 Auth Token,就像在第一个 Curl 命令中所做的那样,我可以创建第二个 Post 命令。