apache-spark - 如何使用 Spark 流将数据从 Kafka 插入到 Kudu

Question

我有一个监听 Kafka 主题的 Spark 流应用程序。获取数据时，我需要对其进行处理并发送到 Kudu。目前我正在使用org.apache.kudu.spark.kudu.KuduContext API数据框并调用插入操作。为了从我的数据创建数据框，我需要调用collect()以便可以使用 sqlContext 创建数据框。

有没有办法在不调用的情况下创建数据框/将数据插入 Kudu，collect()这当然是昂贵的？

我们正在使用 Spark 1.6

score 0 · Accepted Answer

0

Spark 的 Kudu 接收器现在支持结构化流：https ://issues.apache.org/jira/browse/KUDU-2640

于 2019-01-17T17:35:40.523 回答

apache-spark - 如何使用 Spark 流将数据从 Kafka 插入到 Kudu

1 回答 1

Related

Reference