我的想法是使用Spark Streaming + Kafka从 kafka 总线获取事件。在检索一批 avro 编码的事件后,我想用Spark Avro将它们转换为 SparkSQL 数据帧,然后将数据帧写入 Hive 表。
这种方法可行吗?我是 spark 新手,我不确定是否可以使用 Spark Avro 包来解码 Kafka 事件,因为在文档中只提到了 avro 文件。但到目前为止,我的理解是,这是可能的。
下一个问题是:如果可能的话,我的理解是,我有一个符合 SparkSQL 的 Dataframe,我可以将其写入配置单元表。我的假设正确吗?
提前感谢任何提示和提示。