1

我在 Spark 的结构化编程中运行批处理。下面的代码段会抛出错误,提示“kafka 不是有效的 Spark SQL 数据源;”。我使用的版本是--> spark-sql-kafka-0-10_2.10。感谢您的帮助。谢谢。

Dataset<Row> df = spark
    .read()         
    .format("kafka")
    .option("kafka.bootstrap.servers", "*****")
    .option("subscribePattern", "test.*")
    .option("startingOffsets", "earliest")
    .option("endingOffsets", "latest")
    .load();
Exception in thread "main" org.apache.spark.sql.AnalysisException: kafka is not a valid Spark SQL Data Source.;
4

2 回答 2

2

我遇到了同样的问题,像我一样,您使用的是 read 而不是 readStream。

更改spark.read()spark.readStream对我来说效果很好。

于 2017-11-21T18:40:18.343 回答
0

使用spark-submit机制并传递-jars spark-sql-kafka-0-10_2.11-2.1.1.jar

根据自己的情况调整那个库中kafka、scala和spark的版本。

于 2017-05-26T21:00:04.337 回答