可能重复:
使用 Python 解析源代码 (Python) 方法从 HTML 文件中提取文本
:Beautiful Soup、lxml、html5lib 的区别?
目前有一个大型网页,其源代码是大约 200,000 行几乎所有(如果不是全部)HTML。更具体地说,它是一个网页,其内容是由换行符分隔的几千块文本(尽管换行符并不具体意味着内容中有分隔)
我的主要目标是从源代码中提取文本,就像我将网页复制/粘贴到文本编辑器中一样。我想使用另一个解析函数,它最初接收复制/粘贴的文本而不是源代码。
为此,我目前正在使用 urllib2,并在 Beautiful Soup 中调用 .get_text()。问题是,Beautiful Soup 在我的代码中留下了大量的空白,并且很难将结果传递给第二个“文本”解析器。我已经对解析 HTML 进行了大量研究,但坦率地说,我不确定如何轻松解决这个问题。此外,我对如何使用 lxml 之类的导入来提取文本有点困惑。
tl; 博士:有没有什么可能的方法来实现一个结果,就像我在网页上做了全选、复制、粘贴一样?