python - 从python中的文件Grep数据

Question

我需要处理一个 html 页面并识别页面中存在的超链接。如果代码是这样的，我就成功了

<script type="text/javascript" src="/test/test.html">

我使用了一个简单的正则表达式来识别双引号之间的数据，/并且我得到了所有这种类型的喜欢。

但是如果脚本像这样，我无法理解如何获取链接

<script type="text/javascript" src="test/test.html">

因为我不能使用相同的旧正则表达式，或者如果我尝试使用正则表达式获取双引号中的数据，那么我也会得到"text/javascript"不需要的输出。我可以使用 seek() 来做到这一点吗？

谢谢。

score 1 · Accepted Answer

尝试使用：

regex = re.compile('src="([^"]*)"')
result = regex.match(html)
print result.match(1)

1 回答 1