我想将一个大约 15 GB 的 xml 文件序列化为 avro 并使用 python 3.6 存储在 hadoop 中。我的方法是使用 xml.minidom 在字典类型的变量中加载数据,然后将其保存到 avro 文件。虽然这对于几 kb 大小的示例 xml 文件非常有效,但我仍然可以将整个大 xml 数据存储到该变量吗?我想这种方法存在一些记忆挑战?处理这种情况的最佳方法是什么?
问问题
113 次
我想将一个大约 15 GB 的 xml 文件序列化为 avro 并使用 python 3.6 存储在 hadoop 中。我的方法是使用 xml.minidom 在字典类型的变量中加载数据,然后将其保存到 avro 文件。虽然这对于几 kb 大小的示例 xml 文件非常有效,但我仍然可以将整个大 xml 数据存储到该变量吗?我想这种方法存在一些记忆挑战?处理这种情况的最佳方法是什么?