我有一个很大的 HTML 源代码,我想解析(约 200,000 行)行,而且我相当肯定整个过程中存在一些糟糕的格式。我一直在研究一些解析器,似乎 Beautiful Soup、lxml、html5lib 是最受欢迎的。通过阅读这个网站,似乎 lxml 是最常用和最快的,而 Beautiful Soup 速度较慢,但会导致更多的错误和变化。
我对 Beautiful Soup 文档http://www.crummy.com/software/BeautifulSoup/bs4/doc/以及 BeautifulSoup(markup, "lxml") 或 BeautifulSoup(markup, html5lib) 等命令有点困惑。在这种情况下,它是否同时使用 Beautiful Soup 和 html5lib/lxml?速度在这里不是真正的问题,但准确性是。最终目标是使用 urllib2 解析获取源代码,并从文件中检索所有文本数据,就像我只是复制/粘贴网页一样。
PS无论如何解析文件而不返回网页视图中不存在的任何空格?