我有一个用 lxml 的 Cleaner 清理过的字符串,所以所有链接现在都采用 Content 形式。现在我想去掉所有没有 href 属性的链接,例如
<a rel="nofollow">Link to be removed</a>
应该成为
Link to be removed
相同的:
<a>Other link to be removed</a>
应该变成:
Other link to be removed
只是所有缺少 href 属性的链接。它不必是正则表达式,但由于 lxml 返回一个干净的标记结构,它应该是可能的。我需要的是一个去掉了这种非功能性 a 标签的源字符串。