通常我使用lxml来满足我的 HTML 解析需求,但这在 Google App Engine 上不可用。显而易见的替代方案是BeautifulSoup,但我发现它在格式错误的 HTML 上太容易窒息了。目前我正在测试libxml2dom并取得了更好的结果。
您发现哪个纯 Python HTML 解析器性能最好?我的首要任务是处理不良 HTML 超过速度的能力。
通常我使用lxml来满足我的 HTML 解析需求,但这在 Google App Engine 上不可用。显而易见的替代方案是BeautifulSoup,但我发现它在格式错误的 HTML 上太容易窒息了。目前我正在测试libxml2dom并取得了更好的结果。
您发现哪个纯 Python HTML 解析器性能最好?我的首要任务是处理不良 HTML 超过速度的能力。