python - 如何找到里面的所有文字
使用 BeautifulSoup 的 HTML 页面中的元素

Question

我需要在 Python 中使用 BeautifulSoup 找到 HTML 文件中段落元素内的所有可见标签。
例如，
<p>Many hundreds of named mango <a href="/wiki/Cultivar" title="Cultivar">cultivars</a> exist.</p>
应该返回：
Many hundreds of cultivars exist.

PS 某些文件包含需要提取的 Unicode 字符（印地语）。
任何想法如何做到这一点？

score 12 · Accepted Answer

12

soup.findAll('p')

这是一个参考

于 2012-04-11T20:52:29.170 回答

score 6 · Accepted Answer

这是使用 BeautifulSoup 的方法。这将删除不在 VALID_TAGS 中的所有标签，但保留已删除标签的内容。

from BeautifulSoup import BeautifulSoup

VALID_TAGS = ['div', 'p']

soup = BeautifulSoup(value)

for tag in soup.findAll('p'):
    if tag.name not in VALID_TAGS:
        tag.replaceWith(tag.renderContents())

print soup.renderContents()

参考

python - 如何找到里面的所有文字使用 BeautifulSoup 的 HTML 页面中的元素

2 回答 2

Related

Reference

python - 如何找到里面的所有文字
使用 BeautifulSoup 的 HTML 页面中的元素