我想在 python 中解析 html 代码并尝试了漂亮的汤和 pyquery。问题是那些解析器修改了原始代码,例如插入一些标签等。有没有不改变代码的解析器?
我试过HTMLParser
但没有成功!:( 它不会修改代码,只是告诉我标签的放置位置。但它无法解析像 mail.live.com 这样的网页 知道如何像浏览器一样解析网页吗?
您可以使用 BeautifulSoup 仅提取文本而不修改标签。它在他们的文档中。
同样的问题: 如何从美丽的汤中提取文本
不,到目前为止还没有这样的 HTML 解析器,每个解析器都有自己的局限性。