0

我的 kafka 主题是以这种格式推送数据(来自collectd):

[{"values":[100.000080140372],"dstypes":["derive"],"dsnames":["value"],"time":1529970061.145,"interval":10.000,"host":"k5.orch","plugin":"cpu","plugin_instance":"23","type":"cpu","type_instance":"idle","meta":{"network:received":true}}]

它是数组、整数和浮点数的组合……整个东西都在一个 json 数组中。结果,我有一段时间使用ksql对这些数据做任何事情。

当我创建一个“默认”流时

create stream cd_temp with (kafka_topic='ctd_test', value_format='json');

我得到这个结果:

ksql> describe cd_temp;

 Field   | Type                      
-------------------------------------
 ROWTIME | BIGINT           (system) 
 ROWKEY  | VARCHAR(STRING)  (system) 
-------------------------------------

任何选择都将返回 ROWTIME 和 ROWKEY 的 8 位十六进制值。

我花了一些时间试图提取 json 字段无济于事。我担心的是:

ksql> print 'ctd_test' from beginning;
Format:JSON
com.fasterxml.jackson.databind.node.ArrayNode cannot be cast to com.fasterxml.jackson.databind.node.ObjectNode

这个主题可能不能在ksql中使用吗?是否有一种技术可以解开外部数组以获取内部有趣的位?

4

1 回答 1

3

在撰写本文时(2018 年 6 月),KSQL 无法处理整个内容嵌入顶级数组的 JSON 消息。有一个github 问题来跟踪它。我建议在此问题上添加 +1 投票以提高其优先级。

另外,我注意到您的 create stream 语句没有定义 json 消息的模式。虽然这在这种情况下无济于事,但对于其他 Json 输入格式,您将需要它,即您创建的语句应该类似于:

create stream cd_temp (values ARRAY<DOUBLE>, dstypes ARRAY<VARCHAR>, etc) with (kafka_topic='ctd_test', value_format='json');
于 2018-06-27T08:15:11.323 回答