问题标签 [apache-kafka-connect]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hdfs - 如何在 HDP 2.4 中设置和使用 Kafka-Connect-HDFS
我想在 hortonworks 2.4 上使用 kafka-connect-hdfs。您能否帮我完成在 HDP 环境中设置所需的步骤。
java - 如何关闭 Apache Kafka 连接器任务?
现在我正在使用 Apache Kafka 并有任务:我们在目录中有一些 csv 文件,它是一个小批量文件,每个文件大约 25-30 mb。我所需要的-解析文件并将其放入kafka。
正如我所看到的,Kafka 有一些有趣的东西,比如 Connector。
我可以创建 Source-Connector 和 SourceTask,但我不明白一件事:当我处理文件时,如何停止或删除我的任务?
例如我有虚拟连接器:
和任务:
但是当一切都完成后我怎么能关闭我的任务呢?或者,也许您可以帮助我为这项任务提出另一个想法。
感谢您的帮助!
apache-kafka - DataException:由于序列化错误,将 byte[] 转换为 Kafka Connect 数据失败
我正在使用 Kafka 连接将数据从 Kafka 代理持久化到使用 Confluent 平台的弹性搜索。
我写了一个 SinkConnector 来将数据持久化到弹性搜索。
Connect-avro-standalone.properties 配置为:
但是,当我将 avro 生产者的有效 json 推送到 Kafka 时,会导致以下异常。
apache-kafka - Producer 无法通过 DNS 连接到 broker
我有一个物理服务器,在那里我将advertised.host.name 设置为服务器ip,并在路由器上进行端口转发。但是生产者无法使用 dns 连接到代理。
错误:pykafka.connection:无法连接到 192.168.1.3:9092 警告:pykafka.producer:Broker 192.168.1.3:9092 已断开连接。重试。
apache-kafka - 从 Kafka Connect FileStreamSourceTask 读取许多文件
我正在阅读 Kafka 中的 1 个日志文件,并创建一个主题。这是成功的。为了阅读这个文件,我正在为此目的编辑文件config/connect-file-source.properties,并根据 Kafka Quickstart ( http://kafka.apache.org/quickstart#quickstart_kafkaconnect ) 的第 7 步。
但是,现在,我想阅读很多文件。在文件config/connect-file-source.properties中,我使用模式编辑了变量文件,例如: file=/etc/logs/archive .log* 因为我想读取目录日志的所有文件,使用模式存档*.log。但是,这条线不起作用。
使用文件config/connect-file-source.properties实现读取具有模式的文件的最佳形式是什么?
apache-kafka - 为什么有两个 ConsumerConnector 声明?
ConsumerConnector 有两种定义:a) kafka.javaapi.consumer.ConsumerConnector b) kafka.consumer.ConsumerConnector</p>
谁能帮我解释一下这些差异?谢谢!
另外,如果我使用 ConsumerConnector 来获取 KafkaStream,那么消费者偏移量将保存在哪里?因为当我创建 ConsumerConnector 时,它仍然要求我提供 zookeeper url。
apache-kafka - 使用 Kafka 高级 ConsumerConnector 时,偏移量将保存在哪里?
正如新文档所暗示的那样,默认情况下,Kafka 本身将在使用高级 API 时负责偏移管理。但是当我如下创建一个 ConsumerConnector 时,它仍然需要我提供 zookeeper.connect 属性。
是不是在这种情况下,管理offset的还是zookeeper?谢谢!
apache-kafka - 卡夫卡连接节流
我需要代表一组只公开 REST API 的懒惰消费者使用消息。因此,我计划让 Sink 连接器从 Kafka 主题中获取消息并在公开的 API 上执行 HTTP POST 操作。
需要考虑的关键因素之一是节流。您建议使用什么机制来限制接收器任务以满足 API 的层 SLA。我知道 Kafka 具有客户端配额功能,但是,跟踪 API 请求/分钟或秒的最佳机制是什么,可以动态调整客户端配额?
apache-kafka - 使用 Avro 转换器运行 Kafka Connect:ConfigException:“缺少架构注册表 url”
嗨,我正在运行 Kafka Connect docker 图像
并得到
不知道在哪里添加“schema.registry.url”配置!
git - Publisher 如何将消息发布到 Apache Kafka 中的主题?
我是 Apache Kafka 的新手。我不了解 Apache Kafka 中主题和分区的剖析以及 Producer 将数据推送到分区的方式。
考虑一个场景,我有两个生产者 PR1、PR2 和三个代理 B1、B2、B3。一个主题 T1 与三个分区为 P1、P2、P3 拆分为三个代理。现在第一个生产者 PR1 与 Zookeeper 协调并找到 Broker 并推送消息。(比如日志服务器以每秒 1 条记录的速度推送其日志数据)到 T1 - P1 并将偏移量设置为 0。我怀疑第二条记录如何被推。它会推送到分区 P2 还是 P3 ?或者第一条记录本身是并行推送到所有三个分区。
现在第二个发布者加入并发布消息到分区。消息在哪里推送,它会推送到 P1 吗?如果是这种情况,PR1 已经将消息推送到 P1,PR1 和 PR2 是否会同时将消息背靠背附加到 P1,从而创建偏移量 0、1、2、3、4、5....?