我想将 xml 文件转换为 avro。数据将是xml格式,将首先命中kafka主题。然后,我可以使用 flume 或 spark-streaming 来摄取并从 xml 转换为 avro 并将文件放在 hdfs 中。我有一个cloudera环境。
当 avro 文件命中 hdfs 时,我希望能够稍后将它们读入配置单元表。
我想知道最好的方法是什么?我已经尝试过自动模式转换,例如 spark-avro(这是没有 spark-streaming),但问题是 spark-avro 转换数据但配置单元无法读取它。Spark avro 将 xml 转换为数据帧,然后从数据帧转换为 avro。avro 文件只能由我的 spark 应用程序读取。我不确定我是否正确使用它。
我想我需要为 avro 模式定义一个显式模式。不确定如何处理 xml 文件。它有多个命名空间并且非常庞大。