python - 使用 Python re 摆脱链接

Question

说我有一个字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>

我怎样才能re用来摆脱链接并只获取Boston–Cambridge–Quincy, MA–NH MSA部分？

我尝试了类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但没有工作的东西。

score 3 · Accepted Answer

re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

请注意，解析 HTML 通常是相当危险的。但是，您似乎正在解析 MediaWiki 生成的链接，可以安全地假设链接的格式始终相似，因此您应该可以使用该正则表达式。

score 3 · Accepted Answer

您还可以使用bleach模块https://pypi.python.org/pypi/bleach，它包装了 html 清理工具并让您快速去除 html 的文本

2 回答 2