我知道这可能很简单,但我找不到正确的方法来处理它。我有一个 HTML 文档,我想提取它的内容。本文档正文为:
<div class="articleContent">
<div class="dateblock">
<div class="textsize">
<span class="textsize_label">
Font Size</span> <a href="javascript:decreaseFontSize();"
title="Increase font-size" class="txtsizeminus"><span>-</span></a> <a href="javascript:increaseFontSize();"
title="Increase font-size" class="txtsizeplus"><span>+</span></a>
</div>
<p class="article_date">
Last Update: date
</p>
</div>
<div id="ctl00_ctl00_cpAB_cp1_cbcContentBreak">
<div class="zoomMe">
<P>The Content is here</p>
</div>
我想要的是文档的内容,而不是“字体大小”和“上次更新”等其他信息。但是由于所有这些信息都是“articleContent”的孩子,我不知道如何摆脱它们。我必须注意,由于这些附加信息可能会从一个文档更改为另一个文档,因此我不能使用简单的正则表达式将它们从最终字符串中删除。在处理 HTML 文件时,我必须将它们过滤掉。我必须补充一点,我正在使用以下命令来提取文档的这一部分及其内容:
body = soup.find("div", {"class":"articleContent"})
pars= [s for s in body.strings if s.strip() != '']
那么,问题是如何避免在“pars”数组中包含这些附加信息?
有任何想法吗?谢谢