python - Spark 流和 kafka 集成

Question

我正在为一个用 python 编程的项目使用 kafka 和 spark 流。我想将数据从 kafka 生产者发送到我的流媒体程序。当我使用指定的依赖项执行以下命令时，它工作顺利：

./spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py

有什么方法可以指定依赖项并直接运行流代码（即不使用 spark-submit 或使用 spark-submit 但不指定依赖项。）

我尝试在 spark 的 conf 目录中的 spark-defaults.conf 中指定依赖项。指定的依赖项是：1.org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 2.org.apache.spark:spark-streaming-kafka-0-8-assembly:2.1。 1

注意 - 我使用https://spark.apache.org/docs/latest/streaming-programming-guide.html中的 netcat 引用了 spark 流式指南，它在不使用 spark-submit 命令的情况下工作，因此我想知道我是否可以这样做卡夫卡和火花流也是如此。

score 0 · Accepted Answer

将您的附加依赖项提供到spark 发行版的“jars”文件夹中。停止并再次启动火花。这样，将在运行时解决依赖关系，而无需在命令行中添加任何其他选项

python - Spark 流和 kafka 集成

1 回答 1

Related

Reference