0

我的想法是使用Spark Streaming + Kafka从 kafka 总线获取事件。在检索一批 avro 编码的事件后,我想用Spark Avro将它们转换为 SparkSQL 数据帧,然后将数据帧写入 Hive 表。

这种方法可行吗?我是 spark 新手,我不确定是否可以使用 Spark Avro 包来解码 Kafka 事件,因为在文档中只提到了 avro 文件。但到目前为止,我的理解是,这是可能的。

下一个问题是:如果可能的话,我的理解是,我有一个符合 SparkSQL 的 Dataframe,我可以将其写入配置单元表。我的假设正确吗?

提前感谢任何提示和提示。

4

1 回答 1

2

是的,你可以做到这一点 http://aseigneurin.github.io/2016/03/04/kafka-spark-avro-produce-and-sumption-avro-messages.html

可以将数据集保存为 hive 表或以 orc 格式写入数据。您还可以在 hdfs 中以所需格式写入数据并在其上创建外部 hive 表

于 2018-07-02T06:09:35.820 回答