我正在寻找一个高质量的 Python 中的 HTML 微数据解析器。它不必非常快,但我希望它支持尽可能多的规范,包括itemref
.
这是我到目前为止发现的:
- https://github.com/edsu/microdata
- https://github.com/RDFLib/pymicrodata
- https://pypi.python.org/pypi/pelican-microdata/0.1
您是否使用过这些库中的任何一个?有什么好处和坏处?
我也对解析格式不佳的 HTML 文档感到好奇。您是否找到了处理混乱输入的微数据解析器,或者您是否首先通过BeautifulSoup之类的东西运行输入?