2

这个问题是关于包的pyosmium。我只是想知道以下功能是否可行,如果不可行,如何实现。

我想流式传输/产生某些实例属性,而不是在内存中更新它们。

目前我们可以做到以下几点:

class Handler(osmium.SimpleHandler):
    def __init__(self):
        osmium.SimpleHandler.__init__(self)
        self.edge_and_nodes = [] 
    def way(self, w): 
        self.edge_and_nodes.append({'edge_id': w.id, 
                                        'nodes': [w.nodes[i].ref for i in range(len(w.nodes))]})
h = Handler()
h.apply_file("test.osm.pbf")
print("Edges and their connected nodes: {}".format(h.edge_and_nodes))

但是,在处理大区域时,这是不可扩展的。

我想要一种为每个 WayObject 生成包含 WayIds 和相关 NodeIds(以及标签等)的字典对象的方法。这可能吗?

我正在寻找这样的东西:

class StreamHandler(osmium.SimpleHandler):
    def __init__(self):
        osmium.SimpleHandler.__init__(self)
        self.edge_and_nodes = [] 
    def way(self, w): 
        yield {'edge_id': w.id, 
               'nodes': [w.nodes[i].ref for i in range(len(w.nodes))]}
h = StreamHandler()
h.apply_file("test.osm.pbf")
for row in h.way(w): 
    print(row) 

但我不确定如何传递w参数(WayObject),因为这似乎是使用该apply_file()方法在内部处理的(而且我似乎无法找到该方法的源代码)。

谢谢!

编辑:源代码可以在这里找到

4

1 回答 1

0

我找到了解决方法。使用pydriosm,我能够添加一些自定义生成器,它们完全在 Python 中解析和流式传输 *.osm.pbf 文件。这非常适合将数据流式传输到数据库的 Spark 或 Dataflow 作业。

于 2019-10-13T18:09:18.023 回答