在使用 BeautifulSoup 4.1.0 和 lxml 解析器抓取一些网页时,我注意到一个奇怪的行为。内置的 html.parser 不适用于我试图抓取的网页,我决定使用 lxml 解析器。
我的 Eclipse 控制台上的打印结果在几分之一秒内看起来不错,然后,它会自动切换到一个不完整、无用且看起来不太好看的输出,所有字符之间都有空格:
! - - S w i t c h - - >
/ d i v >
页面的文档类型为:
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
我想知道你们中是否有人遇到过类似的问题以及如何解决它。提前致谢。