0

我正在为一个用 python 编程的项目使用 kafka 和 spark 流。我想将数据从 kafka 生产者发送到我的流媒体程序。当我使用指定的依赖项执行以下命令时,它工作顺利:

./spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 ./kafkastreaming.py

有什么方法可以指定依赖项并直接运行流代码(即不使用 spark-submit 或使用 spark-submit 但不指定依赖项。)

我尝试在 spark 的 conf 目录中的 spark-defaults.conf 中指定依赖项。指定的依赖项是:1.org.apache.spark:spark-streaming-kafka-0-8_2.11:2.1.0 2.org.apache.spark:spark-streaming-kafka-0-8-assembly:2.1。 1

注意 - 我使用https://spark.apache.org/docs/latest/streaming-programming-guide.html中的 netcat 引用了 spark 流式指南 ,它在不使用 spark-submit 命令的情况下工作,因此我想知道我是否可以这样做卡夫卡和火花流也是如此。

4

1 回答 1

0

将您的附加依赖项提供到spark 发行版的“jars”文件夹中。停止并再次启动火花。这样,将在运行时解决依赖关系,而无需在命令行中添加任何其他选项

于 2017-06-26T11:25:30.130 回答