我有各种 HTML 文档,我正在尝试提取以下链接:(1) 其他 html 文档,(2) 图像文件,例如 .jpg、.png 和 .bmp。我需要一个正则表达式来做到这一点,但似乎无法弄清楚。
每个 html 页面都有类似于以下的代码:
IMG style="MARGIN-BOTTOM: 20px; MARGIN-LEFT: 20px" align=right src="images/sample001.jpg">
IMG style="MARGIN-BOTTOM: 25px; MARGIN-LEFT: 25px" align=right src="images/sample002.png">
IMG style="MARGIN-BOTTOM: 20px; MARGIN-LEFT: 20px" align=right src="images/sample003.bmp">
href="javascript:parent.POPUP({url:'testDoc001.htm',type:'shared',width:600,height:645})">
href="javascript:parent.POPUP({url:'testDoc002.html',type:'shared',width:700,height:712})">
例如,正则表达式将对上述 HTML 进行操作并生成结果数组:
图片/sample001.jpg
图片/sample002.png
图像/sample003.bmp
testDoc001.htm
testDoc002.html
有人可以帮我吗?非常感谢。