问题标签 [confluent-platform]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - Kafka-Connect:在分布式模式下创建新连接器就是创建新组
我目前正在使用 confluent 3.0.1 平台。我正在尝试在两个不同的工作人员上创建 2 个连接器,但尝试创建一个新的连接器正在为它创建一个新组。
但它们都是在不同的组 ID 下创建的。在此之后,我查询了现有的组。
这些组是由 Kafka connect 自动创建的,不是我提供的。我在worker.properties 中给出了不同的group.id。但我希望两个连接器都在同一个组下,以便它们并行工作以共享消息。截至目前,我有 100 万个关于“dev.ps_primary_delivery”主题的数据,我希望两个连接器各获得 50 万个数据。
请让我知道如何做到这一点。
python - 在 aws linux 机器上通过 yum 安装 librdkafka1 时出现 libsasl 依赖问题
我正在尝试使用 pip 安装 python confluent-kafka 包。我正在运行 amazon linux(版本 Amazon Linux AMI 版本 2016.09)的 aws ec2 实例上尝试此操作。我只是在做:
但是,这会产生以下错误:
为了解决这个问题,我做了两件事:
1) 按照此页面上的说明添加文件 /etc/yum.repos.d/confluent.repo 的内容:
2) 尝试使用以下命令安装 librdkafka 库:
然而,百胜吐出这个错误:
经过一番谷歌搜索后,我尝试了:
这没有效果。我尝试进行 yum 升级,这也没有解决问题。经过多次谷歌搜索,这个 kafka 用户组帖子是我能找到的唯一远程有用的东西,但遗憾的是它没有包含问题的解决方案。
我真的很想在这个实例上启动并运行 kafka python,所以任何建议都将不胜感激。
apache-kafka - 无法使用 Confluent 平台将 Avro 数据推送到 HDFS
我有一个系统将 Avro 数据推送到多个 Kafka 主题中。
我想将该数据推送到 HDFS。我遇到了融合,但不确定如何在不启动的情况下将数据发送到 HDFS kafka-avro-console-producer
。
我执行的步骤:
我有自己的 Kafka 和 ZooKeeper 正在运行,所以我刚刚启动了融合的模式注册表。
我
kafka-connect-hdfs
在更改主题名称后开始。这一步也是成功的。它能够连接到 HDFS。
在此之后,我开始将数据推送到 Kafka,但消息没有被推送到 HDFS。
请帮忙。我是 Confluent 的新手。
python - kafka生产者参数需要发送一条消息才能生效
我正在使用 confluent-kafka-python ( https://github.com/confluentinc/confluent-kafka-python ) 使用 Python 向 Kafka 发送一些消息。我不经常发送消息,所以希望延迟非常低。
如果我这样做,我可以让消息以大约 2 毫秒的延迟出现在我的消费者面前:
但是:在我向这个新的生产者发送第一条消息后,延迟才下降到接近零。后续消息的延迟接近 2 毫秒。
第一条消息虽然有大约 1 秒的延迟。为什么?
amazon-web-services - 尝试使用 yum 在 aws linux 上安装融合平台 (kafka) 3.1.1。获取 PYCURL 错误 22 -“请求的 URL 返回错误:404 未找到”
我正在按照此 wiki 文档中链接的说明在运行 amazon linux(版本 2016.09)的 EC2 实例上安装融合平台。我做了它所说的一切,包括:
使用以下内容创建 /etc/yum.repos.d/confluent.repo:
然后做了
但是,我收到以下错误:
看起来 rpm 文件只是不在汇合文档所说的位置。这不是我的互联网连接或任何问题,因为当我将 confluent.repo 文件更改为指向http://packages.confluent.io/rpm/3.0时,kafka 包下载得很好,除了librdkafka。任何建议将不胜感激,不知道此时还有什么可以尝试的。
docker - 领导者死亡时更改 Zookeeper 集群领导者
远远低于您可以找到 docker-compose.yml 文件。
先决条件:
我使用 docker-compose (docker-compose.yml, 3 zookeepers)将3 个 zookeeper 服务器作为集群启动,然后将 4. one (another docker-compose.yml, 1 zookeeper)添加到集群中。前 3 个 zookeeper 之一是领导者,第 4 个是跟随者,正如预期的那样。
问题:
当我停止前三个 zookeeper 时(通过docker-compose down
),我“失去”了领导者,我希望 4. zookeeper 担任领导者。
唯一发生的事情是 zookeeper 显示错误,例如:
Doing之前返回了最后一个 zookeeperecho stat | nc localhost 52181 | grep Mode
的 Mode ,现在什么也不返回。follower
仍在运行的 zookeeper 服务器只说,例如:
解决方案1:
增加时间限制没有帮助,同样的结果:
ZOOKEEPER_TICK_TIME: 4000
ZOOKEEPER_INIT_LIMIT: 30
ZOOKEEPER_SYNC_LIMIT: 15
解决方案2:
- 另一种方式:
当我首先启动单个 zookeeper 服务器时(其他服务器尚未运行),它只返回错误消息(参见上面的错误),并且显然没有正确运行,因为echo stat | nc localhost 52181 | grep Mode
再次没有返回任何内容。
然后当我将其他 3 个 zookeeper 添加到集群时,一切运行良好,第一个 zookeeper 服务器是leader
.
杀死第一个 zookeeper 会留下 3 个运行,其中一个是 new leader
。
问题:
- 我希望,在集群中留下一个动物园管理员使其成为“领导者”。
- 它像解决方案 2 中描述的那样“反过来”工作(但不是一个,而是三个动物园管理员在运行,只有一个被杀死)。
- 为什么它不像问题中描述的那样工作,分别将单个 Zookeeper 作为领导者或作为单个工作 Zookeeper 服务器?
docker-compose.yml 文件:
我使用 docker-compose 和以下 docker-compose.yml 启动 3 个 zookeeper 服务器:
我以同样的方式开始 4. 一个:
apache-kafka - 跨多个用户扩展 Kafka 流应用程序
我有一个设置,我将事件推送到kafka
,然后在同一个集群上运行Kafka Streams应用程序。公平地说,扩展Kafka Streams
应用程序的唯一方法是kafka
通过添加节点或增加来扩展集群本身Partitions
吗?
在这种情况下,我如何确保我的消费者不会关闭集群并确保关键管道始终是"on"
. 有什么概念Topology Priority
可以避免可能的停机时间吗?我希望能够在不损害核心管道的情况下为任何人公开流以构建应用程序。Apache storm
如果解决方案是设置另一个 kafka 集群,那么对于所有即席查询是否更有意义?(我知道很多消费者仍然可能导致kafka
集群出现问题,但至少topology
现在处理是隔离的)
apache-kafka - 在分布式模式下运行 kafka connect 时的问题
我们正在测试分布式模式下的 kafka connect,以将主题记录从 kafka 拉到 HDFS。我们有两个盒子。kafka 和 zookeeper 守护进程正在其中运行的一种。我们在此框中保留了一个 kafka connect 实例。我们有另一个盒子,其中存在 HDFS 名称节点。我们在这里保留了另一个 kafka connect 实例。
我们在第一个盒子中启动了 kafka、zookeeper 和 kafka connect。我们也在第二个盒子里开始了 kafka connect。现在根据 confluent 文档,我们必须使用 REST API 启动 HDFS 连接器(或任何其他连接器)。因此,在这两个框中启动 kafka connect 后,我们尝试通过 REST API 启动连接器。我们尝试了以下命令:-
只要我们在这里按回车,我们就会得到以下响应:
etc/kafka/ 的 connect-distributed.properties 文件位于两个 kafka 连接节点的下方。我们也创建了上述三个主题(connect-offsets、connect-configs、connect-status)
这里有什么问题?我们是否缺少一些东西来以分布式模式启动 kafka 连接以使用 HDFS 连接器。独立模式下的 kafka connect 工作正常。
amazon-s3 - Kafka Connect Distributed tasks.max 配置设置的理想值?
我希望生产和部署我的 Kafka Connect 应用程序。但是,我有两个关于 tasks.max 设置的问题,这是必需的并且非常重要,但是对于实际将此值设置为什么细节是模糊的。
如果我有一个包含 n 个分区的主题,我希望从中消费数据并写入某个接收器(在我的情况下,我正在写入 S3),我应该将 tasks.max 设置为什么?我应该将其设置为 n 吗?我应该将其设置为 2n 吗?直觉上,我似乎想将值设置为 n ,这就是我一直在做的事情。
如果我更改我的 Kafka 主题并增加该主题的分区怎么办?如果我将其设置为 n,我将不得不暂停我的 Kafka 连接器并增加 tasks.max?如果我设置了 2n 的值,那么我的连接器应该自动增加它运行的并行度吗?
python - 没有收到带有融合 kafka 简单生产者/消费者示例的消息?
我kafka_2.11-0.10.1.1
使用confluent-kafka-0.9.2
(主分支)python 绑定运行,它使用librdkafka-0.9.2
. 我的机器运行 ubuntu-16.04 x86_64。我zookeeper-3.4.8-1
在端口上运行2181
。我像这样运行融合生产者示例:
和消费者:
一切都在我的机器上本地运行,它不运行任何防火墙。
备注:
- 在 Zookeeper 上成功创建主题
- broker 成功接收到 producer 消息:
- 消费者设置以下conf
{'bootstrap.servers': broker, 'group.id': group, 'session.timeout.ms': 6000, 'default.topic.config': {'auto.offset.reset': 'smallest'}, 'api.version.request': True }
- 一开始
producer/consumer
工作得很好一段时间,直到我Receive failed: Disconnected
成为制片人。摘录:
问题:一段时间后我在消费者方面没有得到任何东西
问题:
- 我究竟做错了什么?
- 如何验证代理端已收到生产者消息? 生产者消息在代理端正确接收。
- 如何调试消费者端?
我添加
'debug': "cgrp, topic, fetch"
到消费者配置文件中。我在哪里可以阅读日志?