我有一个监听 Kafka 主题的 Spark 流应用程序。获取数据时,我需要对其进行处理并发送到 Kudu。目前我正在使用org.apache.kudu.spark.kudu.KuduContext API
数据框并调用插入操作。为了从我的数据创建数据框,我需要调用collect()
以便可以使用 sqlContext 创建数据框。
有没有办法在不调用的情况下创建数据框/将数据插入 Kudu,collect()
这当然是昂贵的?
我们正在使用 Spark 1.6
我有一个监听 Kafka 主题的 Spark 流应用程序。获取数据时,我需要对其进行处理并发送到 Kudu。目前我正在使用org.apache.kudu.spark.kudu.KuduContext API
数据框并调用插入操作。为了从我的数据创建数据框,我需要调用collect()
以便可以使用 sqlContext 创建数据框。
有没有办法在不调用的情况下创建数据框/将数据插入 Kudu,collect()
这当然是昂贵的?
我们正在使用 Spark 1.6
Spark 的 Kudu 接收器现在支持结构化流:https ://issues.apache.org/jira/browse/KUDU-2640