1

我们在执行使用 Kafka Connect Elasticsearch 连接器将来自 Kafka 主题的消息发送到 Elasticsearch 的顺序时遇到问题。在主题中,消息的顺序正确且偏移量正确,但如果连续快速创建两条具有相同 ID 的消息,它们会以错误的顺序间歇性地发送到 Elasticsearch。这会导致 Elasticsearch 获得来自倒数第二条消息的数据,而不是来自最后一条消息的数据。如果我们在主题中的两条消息之间添加一两秒的人为延迟,问题就会消失。

这里的文档指出:

通过使用分区级 Kafka 偏移量作为文档版本,并使用version_mode=external.

但是,我在任何地方都找不到有关此version_mode设置的任何文档,以及我们是否需要将其设置在某个地方。

在来自 Kafka Connect 系统的日志文件中,我们可以看到两条消息(对于相同的 ID)以错误的顺序被处理,相隔几毫秒。看起来这些是在不同的线程中处理的,这可能很重要。另请注意,该主题只有一个分区,因此所有消息都在同一个分区中。

下面是日志片段,为清楚起见稍作编辑。Kafka 主题中的消息由 Debezium 填充,我认为这与问题无关,但恰好包含时间戳值。这表明消息的​​处理顺序错误(尽管它们在 Kafka 主题中的顺序正确,由 Debezium 填充):

[2019-01-17 09:10:05,671] DEBUG http-outgoing-1 >> "
{
  "op": "u",
  "before": {
    "id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
    ... << DATA FROM BEFORE SECOND UPDATE >> ...
  },
  "after": {
    "id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
    ... << DATA FROM AFTER SECOND UPDATE >> ...
  },
  "source": { ... },
  "ts_ms": 1547716205205
}
" (org.apache.http.wire)

...

[2019-01-17 09:10:05,696] DEBUG http-outgoing-2 >> "
{
  "op": "u",
  "before": {
    "id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
    ... << DATA FROM BEFORE FIRST UPDATE >> ...
  },
  "after": {
    "id": "ac025cb2-1a37-11e9-9c89-7945a1bd7dd1",
    ... << DATA FROM AFTER FIRST UPDATE >> ...
  },
  "source": { ... },
  "ts_ms": 1547716204190
}
" (org.apache.http.wire)

有谁知道在将消息发送到 Elasticsearch 时如何强制此连接器维护给定文档 ID 的消息顺序?

4

1 回答 1

4

问题是我们的 Elasticsearch 连接器的key.ignore配置设置为true.

我们在连接器的 Github 源代码中发现了这一行(在DataConverter.java中):

final Long version = ignoreKey ? null : record.kafkaOffset();

这意味着,key.ignore=true生成并发送到 Elasticsearch 的索引操作实际上是“无版本的”......基本上,Elasticsearch 收到的文档的最后一组数据将替换任何以前的数据,即使它是“旧的”数据”。

从日志文件看,连接器似乎有几个消费者线程读取源主题,然后将转换后的消息传递给 Elasticsearch,但它们传递给 Elasticsearch 的顺序不一定与主题顺序相同。

使用key.ignore=false,每条 Elasticsearch 消息现在都包含一个等于 Kafka 记录偏移量的版本值,如果 Elasticsearch 已经接收到更高“版本”的数据,它会拒绝更新文档的索引数据。

这不是解决此问题的唯一原因。我们仍然必须对来自 Kafka 主题的 Debezium 消息进行转换,以将密钥转换为 Elasticsearch 满意的纯文本格式:

"transforms": "ExtractKey",
"transforms.ExtractKey.type": "org.apache.kafka.connect.transforms.ExtractField$Key",
"transforms.ExtractKey.field": "id"
于 2019-01-18T11:26:52.007 回答