3

我正在尝试从 ResultSet 中删除所有 HTML 标签soup.html.body.findAll('td', {'class':'yfnc_h'})

目前,ResultSet 有时包含嵌套<a href><td>、 和其他标签。我发现的唯一作用于 ResultSet (不是汤对象)的半解决方案是RSelement.string

但是,.string不能处理具有多个嵌套标签的输入,例如

输入:<td class="yfnc_h" align="right">53.50</td>

输出:53.50

输入:<td class="yfnc_h" align="right"><b>51.97</b></td>

输出:None

输入:<td class="yfnc_h" align="right"><span id="yfs_c10_djx131116c00100000"> <b style="color:#000000;">0.00</b></span></td>

输出:无

如何从 ResultSet 输出中去除所有标签?

4

1 回答 1

3

请改用该.text属性:

print RSelement.text
于 2013-10-31T05:14:23.083 回答