“apache-beam-kafkaio”的相关标签问题

0 投票

0 回答

119 浏览

java - KeyError: 'beam:coders:javasdk:0.1' 与 KafkaIO 和 Python 外部转换

我正在尝试设置一个 Apache Beam Java 管道：

从 Kafka 读取消息
调用外部 Python 转换
将输出写入 Kafka

在此之前，我尝试了没有 Kafka 的简单管道：例如，使用“创建”在 Java 中生成一些测试值，然后将它们传递给虚拟 Python 转换。到目前为止有效。

这是管道代码的摘录：

这是外部转换包装器：

这是我的 Python 转换的摘录：

我这样设置 Python 的扩展服务：

Flink 的作业服务器：

当我像这样运行 Java 管道时：

我得到以下堆栈跟踪：

我不知道为什么这不起作用，而其他示例则起作用。
类型似乎在KafkaIO.read和PythonWordCount expand方法之间匹配。

2021-07-20T15:56:52.590

0 投票

0 回答

103 浏览

apache-spark - 如何优雅地关闭 Apache Beam 管道

我有一个在 Spark 上运行的 Apache Beam 管道。管道从 Kafka 主题 (KafkaIO) 读取并写入文件 (FileIO)。我经常需要停止管道并更新一些外部参数。这会导致一些数据丢失。有没有办法优雅地关闭管道？各种排水，以避免数据丢失。

我在 github ( https://github.com/apache/beam/pull/12287/files ) 中看到了这个 MR，但我似乎无法理解如何使用它。任何帮助，将不胜感激

apache-spark apache-beam apache-beam-io apache-beam-kafkaio

2021-07-26T20:37:01.107

0 投票

1 回答

42 浏览

apache-beam - 如何在 Apache BEAM 中使用 withDynamicRead 和 KafkaIO

我在 Apache Beam 中使用 KafkaIO 读取，我正在尝试调用withDynamicRead。我还有一个基本的 withCheckStopReadingFn 调用：

我收到了这个错误，我无法理解它。有人知道如何正确调用 DynamicRead 吗？我正在使用 Apache Beam 2.29 版

apache-beam apache-beam-io apache-beam-kafkaio

2021-07-30T19:45:03.220

0 投票

0 回答

111 浏览

apache-beam - 根据偏移量或偏移量时间戳停止从 Kafka 消费的 Beam 管道

似乎 Apache Beam (2.29.0) Kafka 管道适用于流式传输，只有在尝试以批处理模式消费时可用的钩子很少。我正在尝试读取在具有开始和结束时间戳的时间范围内给出的丢失消息。很容易弄清楚如何从给定的开始时间开始。为此，我使用了 withStartReadTime 方法，如下所示：

上面的代码使用给定的时间戳调用生产者的 seek 方法，消费者将从等于或大于该起始时间戳的偏移量开始读取分区。

但是，要停止管道，有 3 种可能的方法： withMaxNumRecords 和 withMaxReadTime 和 withCheckStopReadingFn withMaxReadTime 使用持续时间，并且会在给定的时间内读取记录，因此它会停止，因此对于我的目的来说不是确定性的。withMaxNumRecords 我可以计算每个分区的记录数量，我想读取开始时间和结束时间的偏移量，并计算每个分区的记录增量并将它们全部加起来。但是，这也将是不确定的，因为在读取时无法保证消息已在所有分区中均匀读取。一个分区可能已通过目标偏移量读取，而另一个分区未达到目标偏移量。CheckStopReadingFn 的最后一个选项是一个不错的选择。我们目前使用它来暂停管道，但不是基于偏移量。问题在于传递给函数的参数。这是该函数的示例实现。

此方法不采用正在处理的当前偏移量或最后处理的偏移量。因此，当达到给定的偏移量/时间戳时，我不能使用它来停止从分区读取。如果给出这两个偏移量/时间戳，那么实现停止将非常容易。我显然将 KafkaUnboundedReader 用于管道。我看到了对 BoundedReader 的引用，但是我不知道 Kafka 是否支持它以及在我的情况下如何使用它。

我对 Beam 中缺乏对批处理模式的支持感到困惑。我来自 Spark 世界，这类问题会有无数的解决方案。我不知道我是否缺少其他一些 API，或者是否有比 2.29 更高的版本以及我正在寻找的选项。如果有人指出我这样的解决方案，我将不胜感激。

apache-beam apache-beam-kafkaio

2021-08-26T18:48:57.563

0 投票

1 回答

40 浏览