1

有人可以建议我如何使用 Apache spark 解析 EDIFACT 格式数据吗?

我有一个要求,因为每天 EDIFACT 数据都将写入 aws s3 存储桶。我正在尝试找到一种使用 Apache spark 将此数据转换为结构化格式的最佳方法。

4

1 回答 1

2

如果您有 EDIFACT 格式的发票,您可以使用 RDD 将每个发票读取为每个发票的一个字符串。然后你将有一个 RDD[String] 代表分布式发票集合。看看https://github.com/CenPC434/java-tools你可以将 EDIFACT 字符串转换为 XML。这个 repo https://github.com/databricks/spark-xml展示了如何使用 XML 格式作为输入源来创建 Dataframes 并执行多个查询、聚合......等等。

于 2018-11-12T14:28:12.370 回答