我正在为一个用 python 编程的项目使用 kafka 和 spark 流。我想将数据从 kafka 生产者发送到我的流媒体程序。当我使用指定的依赖项执行以下命令时,它工作顺利:
./spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py
有什么方法可以指定依赖项并直接运行流代码(即不使用 spark-submit 或使用 spark-submit 但不指定依赖项。)
我尝试在 spark 的 conf 目录中的 spark-defaults.conf 中指定依赖项。指定的依赖项是:1.org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 2.org.apache.spark:spark-streaming-kafka-0-8-assembly:2.1。 1
注意 - 我使用https://spark.apache.org/docs/latest/streaming-programming-guide.html中的 netcat 引用了 spark 流式指南 ,它在不使用 spark-submit 命令的情况下工作,因此我想知道我是否可以这样做卡夫卡和火花流也是如此。