我想在 Python 中将 HTML 转换为纯文本,我希望结果看起来像是从浏览器中复制的。我尝试了许多库,如html2text、html-text和BeautifulSoup,但没有一个能得到我想要的结果。例如,以下 HTML:
<div>aaa</div> <div>AAA</div>
<div><br></div>
<div>bbb</div> <div>BBB</div>
<div><br></div>
<div>ccc</div> <div>CCC</div>
在浏览器中看起来像这样:
aaa
AAA
bbb
BBB
ccc
CCC
但是当我使用html2text时,结果是
aaa
AAA
bbb
BBB
ccc
CCC
html-text的结果是
aaa
AAA
bbb
BBB
ccc
CCC
BeautifulSoup只是删除了标签:
aaa AAA
bbb BBB
ccc CCC
好吧,我也尝试过soup.get_text('\n')
,soup.get_text('\n', strip=True)
但无法获得正确的结果。
有没有人有解决问题的好方法?非常感谢。