python - 不修改实际标记的python html解析器？

Question

我想在 python 中解析 html 代码并尝试了漂亮的汤和 pyquery。问题是那些解析器修改了原始代码，例如插入一些标签等。有没有不改变代码的解析器？

我试过HTMLParser但没有成功！:( 它不会修改代码，只是告诉我标签的放置位置。但它无法解析像 mail.live.com 这样的网页知道如何像浏览器一样解析网页吗？

score 1 · Accepted Answer

您可以使用 BeautifulSoup 仅提取文本而不修改标签。它在他们的文档中。

score 0 · Accepted Answer

0

不，到目前为止还没有这样的 HTML 解析器，每个解析器都有自己的局限性。

于 2013-08-21T06:44:12.320 回答

score 0 · Accepted Answer

您是否尝试过使用 Python 绑定的webkit引擎？

你可以遍历被解析网页的真实DOM，做你需要做的事情。

3 回答 3