python - 使用 Beautiful Soup 解析时删除 head 标签之间的任何内容

Question

我已经搜索过，但没有找到合适的答复。

url = "http://en.wikipedia.org/wiki/Bryan_Greenberg"
opener = urllib2.build_opener()
opener.addheaders = [('User-agent', 'Mozilla/5.0')]
try:
    ourUrl = opener.open(url).read()
    soup = BeautifulSoup(ourUrl)
except Exception,err:
    continue
dem = soup.findAll('p')

我刚刚复制了脚本的一部分。如何删除放置在标题和标题标签中的所有内容。所以它不是汤。谢谢。

score 1 · Accepted Answer

我没有安装 BeautifulSoup，所以它未经测试，但我猜应该可以做到这一点：

使用extract()方法：

markup = '<a href="http://example.com/">I linked to <i>example.com</i></a>'
soup = BeautifulSoup(markup)
a_tag = soup.a

i_tag = soup.i.extract()

a_tag
# <a href="http://example.com/">I linked to</a>

在哪里soup.i.extract()放置您不需要的标签名称，例如soup.head.extract(). 请注意，这可能会从文档中删除所有标题或标题标签（如果碰巧有任何额外的标签），我根本不知道确切的内容，因为从未使用过此功能。

python - 使用 Beautiful Soup 解析时删除 head 标签之间的任何内容

1 回答 1

Related

Reference