scala - 如何使用 apache spark 解析 EDIFACT 文件数据？

Question

有人可以建议我如何使用 Apache spark 解析 EDIFACT 格式数据吗？

我有一个要求，因为每天 EDIFACT 数据都将写入 aws s3 存储桶。我正在尝试找到一种使用 Apache spark 将此数据转换为结构化格式的最佳方法。

score 2 · Accepted Answer

如果您有 EDIFACT 格式的发票，您可以使用 RDD 将每个发票读取为每个发票的一个字符串。然后你将有一个 RDD[String] 代表分布式发票集合。看看https://github.com/CenPC434/java-tools你可以将 EDIFACT 字符串转换为 XML。这个 repo https://github.com/databricks/spark-xml展示了如何使用 XML 格式作为输入源来创建 Dataframes 并执行多个查询、聚合......等等。

scala - 如何使用 apache spark 解析 EDIFACT 文件数据？

1 回答 1

Related

Reference