可能重复:
用于解析网页链接的正则表达式?
如何使用正则表达式从 HTML 中找到所有 url。我只需要页面的 url,所以我想添加排除以“.css”或“.jpg”或“.js”等结尾的 url。
HTML 示例:
<a href=index.php?option=content&task=view&id=2&Itemid=25 class="menu_selected" id="">Home</a>
或者
<a href="http://data.stackexchange.com">data</a> |
<a href="http://shop.stackexchange.com/">shop</a> |
<a href="http://stackexchange.com/legal">legal</a> |
谢谢