0

我想将 xml 文件转换为 avro。数据将是xml格式,将首先命中kafka主题。然后,我可以使用 flume 或 spark-streaming 来摄取并从 xml 转换为 avro 并将文件放在 hdfs 中。我有一个cloudera环境。

当 avro 文件命中 hdfs 时,我希望能够稍后将它们读入配置单元表。

我想知道最好的方法是什么?我已经尝试过自动模式转换,例如 spark-avro(这是没有 spark-streaming),但问题是 spark-avro 转换数据但配置单元无法读取它。Spark avro 将 xml 转换为数据帧,然后从数据帧转换为 avro。avro 文件只能由我的 spark 应用程序读取。我不确定我是否正确使用它。

我想我需要为 avro 模式定义一个显式模式。不确定如何处理 xml 文件。它有多个命名空间并且非常庞大。

4

1 回答 1

0

如果你在 cloudera 上(因为你有水槽,你可以拥有它),你可以使用 morphline 在记录级别进行转换。您可以使用批处理/流式传输。您可以在此处查看更多信息。

于 2016-05-31T17:46:20.067 回答