1

我想在 python 中解析 html 代码并尝试了漂亮的汤和 pyquery。问题是那些解析器修改了原始代码,例如插入一些标签等。有没有不改变代码的解析器?


我试过HTMLParser但没有成功!:( 它不会修改代码,只是告诉我标签的放置位置。但它无法解析像 mail.live.com 这样的网页 知道如何像浏览器一样解析网页吗?

4

3 回答 3

1

您可以使用 BeautifulSoup 仅提取文本而不修改标签。它在他们的文档中。

同样的问题: 如何从美丽的汤中提取文本

于 2012-12-13T11:47:14.207 回答
0

不,到目前为止还没有这样的 HTML 解析器,每个解析器都有自己的局限性。

于 2013-08-21T06:44:12.320 回答
0

您是否尝试过使用 Python 绑定的webkit引擎?

看到这个:https ://github.com/niwibe/phantompy

你可以遍历被解析网页的真实DOM,做你需要做的事情。

于 2013-08-21T06:57:18.930 回答