好吧,这是我从网站上抓取文本内容的代码....虽然我没有仅获取平面文本,但它正在工作....如何处理
from bs4 import BeautifulSoup
import mechanize
def getArticle(url):
br = mechanize.Browser()
htmltext = br.open(url).read()
soup = BeautifulSoup(htmltext)
for tag in soup.findAll('span',{'itemprop':'articleBody'}):
print tag.contents
例如,当我抓取网站时。我得到这个输出
"[u"\n在苏维埃俄罗斯,支付客户账单的是银行。\xa0或者,至少,有可能。",
, u'\n',
, u'\r\n沃罗涅日出现了一个有趣的案例,俄罗斯,一名男子起诉一家银行,要求其赔偿超过 2400 万俄罗斯卢布(约合 727,000 美元)的一份手工制作的文件,该文件由银行签署并认可。\xa0',
, u'\n',
, u'\ r\n一位名叫 Dmitry Alexeev 的人(他的姓氏被更改为 ',被第一个发布此故事的俄罗斯媒体所更改,u')说,2008 年他收到了一封来自 ', Tinkoff Credit Systems , u'\xa0 的信邮箱。是一张信用卡申请表,附有协议合同,就像美国人每天从与 ',签证
如何仅获取纯文本?