我有一个包含以下内容的 html:
<b>
<p align="left">TXT1</p>
</b>
<p align="left">
<b>NR1</b>
<b>TXT2</b>
TXT3
<b>TXT4</b>
TXT5
</p>
当我做:
from BeautifulSoup import BeautifulSoup
html = urllib.urlopen('url')
htmlr = html.read()
soup = BeautifulSoup(htmlr)
print soup
我得到不同的东西:
<p align="left">TXT1</p>
<p align="left">NR1 <b>TXT2</b> TXT3 <b>TXT4</b>
TXT5</p>
我正在分析 html 文档布局,因此丢失标签非常令人沮丧。为什么会发生这种情况以及阻止它的最佳方法是什么?帮助很大!
编辑:我需要处理格式错误的 html 文档以进行信息提取。如果他们的创建者希望将某些文本呈现为粗体,我必须考虑到这一点,即使该人创建了无效的 html。