apache-spark - Spark，从 Kafka 流中读取失败 AnalysisException

Question

我在本地机器上使用 Spark 2.4.5、Kafka 2.3.1。

我可以使用引导服务器配置“ localhost:9092”在 Kafka 上生成和使用消息</p>

尝试使用 spark 流 API 设置阅读器时，出现错误

异常消息：Py4JJavaError：调用 o166.load 时出错。：org.apache.spark.sql.AnalysisException：找不到数据源：kafka。请按照《Structured Streaming + Kafka Integration Guide》部署部分部署应用；

我正在尝试执行的 Spark 代码：

df1 = spark.readStream.format("kafka")\
 .option("kafka.bootstrap.servers", "localhost:9092")\
 .option("subscribe", "topic1")\
 .load()

如何检查 Spark 是否有数据源“Kafka”？如果没有那么如何添加它？

score 0 · Accepted Answer

您需要启动您的spark-shellor选项spark-submit以--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.5将相应的包拉入类路径。请参阅它在异常中提到的文档。

1 回答 1