12

我正在使用 BeautifulSoup 来解析 html 页面中的一些内容。

我可以从 html 中提取我想要的内容(即包含在myclass中span定义的文本)。class

result = mycontent.find(attrs={'class':'myclass'})

我得到这个结果:

<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

如果我尝试使用以下方法提取文本:

result.get_text()

我得到:

Lorem ipsumdolor sit amet,consectetur...

正如您所看到的,当标签<br>被删除时,内容之间不再有空格,并且两个单词被连接起来。

我该如何解决这个问题?

4

3 回答 3

23

如果您使用的是 bs4,则可以使用strings

" ".join(result.strings)
于 2013-04-20T13:53:11.773 回答
16

使用 'contents' ,然后替换<br>?

这是一个完整的(工作的,经过测试的)示例:

from bs4 import BeautifulSoup
import urllib2

url="http://www.floris.us/SO/bstest.html"
page=urllib2.urlopen(url)
soup = BeautifulSoup(page.read())

result = soup.find(attrs={'class':'myclass'})
print "The result of soup.find:"
print result

print "\nresult.contents:"
print result.contents
print "\nresult.get_text():"
print result.get_text()
for r in result:
  if (r.string is None):
    r.string = ' '

print "\nAfter replacing all the 'None' with ' ':"
print result.get_text()

结果:

The result of soup.find:
<span class="myclass">Lorem ipsum<br/>dolor sit amet,<br/>consectetur...</span>

result.contents:
[u'Lorem ipsum', <br/>, u'dolor sit amet,', <br/>, u'consectetur...']

result.get_text():
Lorem ipsumdolor sit amet,consectetur...

After replacing all the 'None' with ' ':
Lorem ipsum dolor sit amet, consectetur...

这比 Sean 的非常紧凑的解决方案更复杂——但既然我说过我会按照我在可能的情况下指出的路线创建和测试一个解决方案,我决定兑现我的承诺。你可以更好地看到这里发生了什么——<br/>它是元组中自己的元素result.contents,但是当转换为字符串时,“什么都没有”。

于 2013-04-20T13:47:27.423 回答
4

result.get_text(separator=" ")应该管用。

于 2019-01-28T09:59:03.517 回答