6

我正在寻找一个高质量的 Python 中的 HTML 微数据解析器。它不必非常快,但我希望它支持尽可能多的规范,包括itemref.

这是我到目前为止发现的:

您是否使用过这些库中的任何一个?有什么好处和坏处?

我也对解析格式不佳的 HTML 文档感到好奇。您是否找到了处理混乱输入的微数据解析器,或者您是否首先通过BeautifulSoup之类的东西运行输入?

4

1 回答 1

4

您希望将微数据解析为什么格式?

https://github.com/RDFLib/pymicrodata将解析为 RDF。

如果你想要 JSON,你应该使用https://github.com/edsu/microdata,它最近引起了一些关注,应该更符合规范。

https://pypi.python.org/pypi/pelican-microdata/0.1看起来像是一种为特定静态站点生成器生成微数据的方法,所以我认为它不会有助于解析。

我不知道上述任何一个解析器对格式不佳的 HTML 的容忍度如何。如果您知道一些使用 Microdata 的格式不佳的标记,我很想看看 Ruby 解析器如何处理这些情况。

于 2013-04-02T12:39:31.203 回答