scala - Spark 1.6流式消费者阅读卡夫卡偏移量卡在createDirectStream

Question

我正在尝试将火花流偏移量读入我的消费者，但我似乎无法正确执行。

这是我的代码。

val dfoffset = hiveContext.sql(s"select * from $db")
dfoffset.show()
val dfoffsetArray = dfoffset.collect()
println("printing array of data")
dfoffsetArray.foreach(println)
val fromOffsets = collection.mutable.Map[TopicAndPartition, Long]()
for (i <- dfoffsetArray) {
  val topicAndPartition = (TopicAndPartition(i(1).toString, i(0).toString.toInt) -> (i(2).toString.toLong))
  fromOffsets += topicAndPartition
}

val kafkaParams = Map[String, String]("bootstrap.servers" -> serverName, "group.id" -> "test")
val topics = Array(topicName).toSet
//stuck here 
var directKafkaStream = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](ssc, kafkaParams, topics)

directKafkaStream.foreachRDD(rdd1 => { ..

这是显示数据框的输出

partition_number|topic_name|current_offset|
+----------------+----------+--------------+
|               0|TOPIC_NAME|          4421|

任何帮助是极大的赞赏。

我正在使用 spark 1.6、Scala 2.10.5、kafka 10

score 1 · Accepted Answer

正如官方文档显示的KafkaUtils.createDirectStream，您应该将其fromOffsets作为 createDirectStream 的第三个参数传递（并且不要忘记第四个参数messageHandler）。

fromOffsets参数假设为 a collection.immutable.Map[TopicAndPartition, Long]，我们通常在 Scala 中尽可能使用不可变而不是可变的。
您可以使用以下内容将其转换dfoffsetArray为immutable.Map[TopicAndPartition, Long]：

val fromOffsets = dfoffsetArray.map( i =>
  TopicAndPartition(i(1).toString, i(0).toString.toInt) -> (i(2).toString.toLong)
).toMap

而messageHandleris 类型(MessageAndMetadata[K, V]) ⇒ R)，它处理消息的键和值。您可以定义一个简单的处理程序，如下所示：

val messageHandler =
  (mmd: MessageAndMetadata[String, String]) => (mmd.key, mmd.message)

然后你的createDirectStream会看起来像......

KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder,
  (String, String)](ssc, kafkaParams, fromOffsets, messageHandler)

现在您可以自由地对您的流进行一些转换。快乐流媒体！

几个月前，我接受了这篇文章的指导。也许你会发现它很有帮助。

scala - Spark 1.6流式消费者阅读卡夫卡偏移量卡在createDirectStream

1 回答 1

Related

Reference