1

我如何最好地为 Python SDK 编写源代码,它应该读取嵌套的 XML 文件并将内容拆分为多行。现有的源都在行级别上工作,这不是我在 XML 上下文中需要的。

它是一堆 XML 文件,每个文件都生成一个交易,必须将其分解为多个记录(订单行、付款等)。

4

1 回答 1

1

您可以使用此模式读取 TensorFlow 记录作为编写自己的源代码的模型: https ://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/tfrecordio.py

您可以使用 Python 将 XML 解析为元素。

请记住,来源将写入必须仅包含一种元素类型的 PCollection,因此您的来源无法发出某些付款记录和某些订单记录。您需要发出单个事务记录或围绕每个记录子类型创建一个包装器,然后过滤内容。

于 2017-03-21T19:38:19.900 回答