python-2.7 - Python Scraping，如何通过 BeautifulSoup 从中获取文本？

Question

好吧，这是我从网站上抓取文本内容的代码....虽然我没有仅获取平面文本，但它正在工作....如何处理

    from bs4 import BeautifulSoup
import mechanize
def getArticle(url):
        br = mechanize.Browser()
        htmltext = br.open(url).read()
        soup = BeautifulSoup(htmltext)
        for tag in soup.findAll('span',{'itemprop':'articleBody'}):
                print tag.contents

例如，当我抓取网站时。我得到这个输出

"[u"\n在苏维埃俄罗斯，支付客户账单的是银行。\xa0或者，至少，有可能。",
, u'\n',
, u'\r\n沃罗涅日出现了一个有趣的案例，俄罗斯，一名男子起诉一家银行，要求其赔偿超过 2400 万俄罗斯卢布（约合 727,000 美元）的一份手工制作的文件，该文件由银行签署并认可。\xa0',
, u'\n',
, u'\ r\n一位名叫 Dmitry Alexeev 的人（他的姓氏被更改为 ',被第一个发布此故事的俄罗斯媒体所更改，u'）说，2008 年他收到了一封来自 ', Tinkoff Credit Systems , u'\xa0 的信邮箱。是一张信用卡申请表，附有协议合同，就像美国人每天从与 ',签证

如何仅获取纯文本？

score 2 · Accepted Answer

使用tag.text代替tag.contents：

from bs4 import BeautifulSoup
import mechanize

url = "http://www.minyanville.com/business-news/editors-pick/articles/A-Russian-Bank-Is-Sued-for/8/7/2013/id/51205"
br = mechanize.Browser()
htmltext = br.open(url).read()
soup = BeautifulSoup(htmltext)
for tag in soup.findAll('span',{'itemprop':'articleBody'}):
    print tag.text

python-2.7 - Python Scraping，如何通过 BeautifulSoup 从中获取文本？

1 回答 1

Related

Reference