0

说我有一个字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>

我怎样才能re用来摆脱链接并只获取Boston–Cambridge–Quincy, MA–NH MSA部分?

我尝试了类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)但没有工作的东西。

4

2 回答 2

3
re.sub('<a[^>]+>(.*?)</a>', '\\1', text)

请注意,解析 HTML 通常是相当危险的。但是,您似乎正在解析 MediaWiki 生成的链接,可以安全地假设链接的格式始终相似,因此您应该可以使用该正则表达式。

于 2013-02-23T23:43:38.857 回答
3

您还可以使用bleach模块https://pypi.python.org/pypi/bleach,它包装了 html 清理工具并让您快速去除 html 的文本

于 2013-02-24T00:21:20.157 回答