0

我正在尝试匹配页面上的所有链接,但我不想捕获 css 或 js 文件

我能想到的最好的就是这个

^href=".*[^\.css | ^\.js]"$

但它也匹配一些奇怪的文本,比如这个:

href="http://fonts.googleapis.com/css?family=Droid+Serif" type="text/css"><link rel="stylesheet" 

有任何想法吗?我一直在尝试并在谷歌上搜索我的问题的答案,但到目前为止还没有

4

2 回答 2

0

这个:

href="http://fonts.googleapis.com/css?family=Droid+Serif" type="text/css"><link rel="stylesheet" 

里面没有.css,只有css(没有点)。这不就是它找到它的原因吗?

于 2013-11-12T11:15:01.077 回答
0

您将需要使用负前瞻:

href="[^.]+(?!(?:css|js)).*"

但除了正则表达式之外,可能还有更好的方法来废弃 HTML 页面,比如 DOM 解析器。

于 2013-11-12T11:14:28.347 回答