我读了这个关于从字符串中提取 url 的线程。https://stackoverflow.com/a/840014/326905 真的很好,我从包含http://www.blabla.com的XML 文档中获取了所有 url
>>> s = '<link href="http://www.blabla.com/blah" />
<link href="http://www.blabla.com" />'
>>> re.findall(r'(https?://\S+)', s)
['http://www.blabla.com/blah"', 'http://www.blabla.com"']
但我不知道如何自定义正则表达式以省略网址末尾的双引号。
首先我认为这是线索
re.findall(r'(https?://\S+\")', s)
或这个
re.findall(r'(https?://\S+\Z")', s)
但事实并非如此。
有人可以帮助我并告诉我如何在最后省略双引号吗?
顺便提一句。https的“s”后面的问号表示“s”可以出现也可以不出现。我对吗?