说我有一个字符串看起来像<a href="/wiki/Greater_Boston" title="Greater Boston">Boston–Cambridge–Quincy, MA–NH MSA</a>
我怎样才能re
用来摆脱链接并只获取Boston–Cambridge–Quincy, MA–NH MSA
部分?
我尝试了类似match = re.search(r'<.+>(\w+)<.+>', name_tmp)
但没有工作的东西。
re.sub('<a[^>]+>(.*?)</a>', '\\1', text)
请注意,解析 HTML 通常是相当危险的。但是,您似乎正在解析 MediaWiki 生成的链接,可以安全地假设链接的格式始终相似,因此您应该可以使用该正则表达式。
您还可以使用bleach
模块https://pypi.python.org/pypi/bleach,它包装了 html 清理工具并让您快速去除 html 的文本