0

我需要处理一个 html 页面并识别页面中存在的超链接。如果代码是这样的,我就成功了

<script type="text/javascript" src="/test/test.html">

我使用了一个简单的正则表达式来识别双引号之间的数据,/并且我得到了所有这种类型的喜欢。

但是如果脚本像这样,我无法理解如何获取链接

<script type="text/javascript" src="test/test.html">

因为我不能使用相同的旧正则表达式,或者如果我尝试使用正则表达式获取双引号中的数据,那么我也会得到"text/javascript"不需要的输出。我可以使用 seek() 来做到这一点吗?

谢谢。

4

1 回答 1

1

尝试使用:

regex = re.compile('src="([^"]*)"')
result = regex.match(html)
print result.match(1)
于 2013-05-23T17:57:47.580 回答