我正在尝试使用 BeautifulSoup 从 html 文档中获取一些文本。在一个对我来说非常相关的案例中,它产生了一个奇怪而有趣的结果:在某一点之后,汤里的文本中充满了额外的空格(一个空格将每个字母与下一个字母分开)。我试图在网上搜索以找到原因,但我只遇到了一些关于相反错误的消息(根本没有空格)。
您对它发生的原因以及如何解决此问题有一些建议或提示吗?
这是我创建的非常基本的代码:
from bs4 import BeautifulSoup
import urllib2
html = urllib2.urlopen("http://www.beppegrillo.it")
prova = html.read()
soup = BeautifulSoup(prova)
print soup
这是从结果中提取的一行,这个问题开始出现的行:
value=\"Giuseppe labbate ogm?non vorremmo nuovi uccelli chiamati lontre\"><input onmouseover=\"Tip('<centerclass = \ \ 'title _ video \ \' > < b > G iuseppelabbateogm ? nonvorremmonuoviuccel lichiamatilontre <