apache-spark - Spark 结构化流批处理

Question

我在 Spark 的结构化编程中运行批处理。下面的代码段会抛出错误，提示“kafka 不是有效的 Spark SQL 数据源；”。我使用的版本是--> spark-sql-kafka-0-10_2.10。感谢您的帮助。谢谢。

Dataset<Row> df = spark
    .read()         
    .format("kafka")
    .option("kafka.bootstrap.servers", "*****")
    .option("subscribePattern", "test.*")
    .option("startingOffsets", "earliest")
    .option("endingOffsets", "latest")
    .load();

Exception in thread "main" org.apache.spark.sql.AnalysisException: kafka is not a valid Spark SQL Data Source.;

score 2 · Accepted Answer

我遇到了同样的问题，像我一样，您使用的是 read 而不是 readStream。

更改spark.read()为spark.readStream对我来说效果很好。

score 0 · Accepted Answer

使用spark-submit机制并传递-jars spark-sql-kafka-0-10_2.11-2.1.1.jar

根据自己的情况调整那个库中kafka、scala和spark的版本。

apache-spark - Spark 结构化流批处理

2 回答 2

Related

Reference