有人可以建议我如何使用 Apache spark 解析 EDIFACT 格式数据吗?
我有一个要求,因为每天 EDIFACT 数据都将写入 aws s3 存储桶。我正在尝试找到一种使用 Apache spark 将此数据转换为结构化格式的最佳方法。
有人可以建议我如何使用 Apache spark 解析 EDIFACT 格式数据吗?
我有一个要求,因为每天 EDIFACT 数据都将写入 aws s3 存储桶。我正在尝试找到一种使用 Apache spark 将此数据转换为结构化格式的最佳方法。
如果您有 EDIFACT 格式的发票,您可以使用 RDD 将每个发票读取为每个发票的一个字符串。然后你将有一个 RDD[String] 代表分布式发票集合。看看https://github.com/CenPC434/java-tools你可以将 EDIFACT 字符串转换为 XML。这个 repo https://github.com/databricks/spark-xml展示了如何使用 XML 格式作为输入源来创建 Dataframes 并执行多个查询、聚合......等等。