python - 是否有带有 python 绑定的最新快速 YAML 解析器？

Question

在 Python 中进行快速 YAML 解析的最新和最棒的是什么？Syck 已经过时了，建议使用 PyYaml，但是 PyYaml 速度很慢，并且存在 GIL 问题：

>>> def xit(f, x):
        import threading
        for i in xrange(x):
                threading.Thread(target=f).start()

>>> def stressit():
        start = time.time()
        res = yaml.load(open(path_to_11000_byte_yaml_file))
        print "Took %.2fs" % (time.time() - start,)    

>>> xit(stressit, 1)
Took 0.37s
>>> xit(stressit, 2)
Took 1.40s
Took 1.41s
>>> xit(stressit, 4)
Took 2.98s
Took 2.98s
Took 2.99s
Took 3.00s

鉴于我的用例，我可以缓存解析的对象，但即便如此，我仍然更喜欢更快的解决方案。

score 6 · Accepted Answer

链接的 wiki 页面在警告“使用 libyaml (c) 和 PyYaml (python)”之后声明。尽管该注释确实有一个错误的 wikilink（应该PyYAML不是PyYaml）。

至于性能，根据您安装 PyYAML 的方式，您应该有可用的 CParser 类，它实现了用优化的 C 编写的 YAML 解析器。虽然我认为这不能解决 GIL 问题，但它明显更快。以下是我在我的机器上运行的一些粗略的基准测试（AMD Athlon II X4 640、3.0GHz、8GB RAM）：

首先使用默认的纯 Python 解析器：

$ /usr/bin/python2 -m timeit -s 'import yaml; y=file("large.yaml", "r").read()' \
    'yaml.load(y)'                    
10 loops, best of 3: 405 msec per loop

使用 CParser：

$ /usr/bin/python2 -m timeit -s 'import yaml; y=file("large.yaml", "r").read()' \
    'yaml.load(y, Loader=yaml.CLoader)'
10 loops, best of 3: 59.2 msec per loop

并且，为了比较，使用纯 Python 解析器的 PyPy。

$ pypy -m timeit -s 'import yaml; y=file("large.yaml", "r").read()' \
    'yaml.load(y)'
10 loops, best of 3: 101 msec per loop

因为large.yaml我刚刚搜索了“大型 yaml 文件”并遇到了这个：

https://gist.github.com/nrh/667383/raw/1b3ba75c939f2886f63291528df89418621548fd/large.yaml

（我必须删除前几行以使其成为单文档 YAML 文件，否则 yaml.load 会抱怨。）

编辑：

要考虑的另一件事是使用multiprocessing模块而不是线程。这解决了 GIL 问题，但确实需要更多样板代码来在进程之间进行通信。有许多很好的库可以使多处理更容易。这里有一个很好的列表。

python - 是否有带有 python 绑定的最新快速 YAML 解析器？

1 回答 1

Related

Reference