我想在 Python 中使用 BeautifulSoup 从这样的 html 中解析 html
<p><b>Background</b><br />x0</p><p>x1</p>
<p><b>Innovation</b><br />x2</p><p>x3</p><p>x4</p>
<p><b>Activities</b><br />x5</p><p>x6</p>"
到这个结果:
Background: x0, x1
Innovation: x2, x3, x4
Activities: x5, x6
我已经厌倦了使用下面的 python 脚本:
from bs4 import BeautifulSoup
htmltext = "<p><b>Background</b><br />x0</p><p>x1</p>
<p><b>Innovation</b><br />x2</p><p>x3</p><p>x4</p>
<p><b>Activities</b><br />x5</p><p>x6</p>"
html = BeautifulSoup(htmltext)
for n in html.find_all('b'):
title_name = n.next_element
title_content = n.nextSibling.nextSibling
print title_name, title_content
但是,我只能得到这个:
Background: x0
Innovation: x2
Activities: x5
欢迎您提出意见,您的建议将不胜感激。