5

通常我使用lxml来满足我的 HTML 解析需求,但这在 Google App Engine 上不可用。显而易见的替代方案是BeautifulSoup,但我发现它在格式错误的 HTML 上太容易窒息了。目前我正在测试libxml2dom并取得了更好的结果。

您发现哪个纯 Python HTML 解析器性能最好?我的首要任务是处理不良 HTML 超过速度的能力。

4

2 回答 2

5

BeautifulSoup 文档

Beautiful Soup 3.1.0 版在实际 HTML 上的表现比 3.0.8 版差得多

因此,它可能会帮助您使用这个早期版本。这正是作者本人所建议的。

您可以假装 Beautiful Soup 3.1.0 版从未发布过。3.0.8 版在 Python 2.3 到 2.6 上仍然可以正常工作。

于 2010-01-29T12:32:26.540 回答
5

不再是问题 - 支持 lxml: https ://developers.google.com/appengine/docs/python/tools/libraries27

于 2010-02-02T01:31:38.987 回答