2

我在使用正则表达式匹配 http 链接时遇到问题。我有一个模式,我想从网站源代码中提取。源代码有 200 多行,其中包含大量 HTML 乱码,例如</html><body... useless links useless images'

我需要的 http 链接属于这种模式:

<a href"http:www.google.com/....1,1">
<a href"http:www.google.com/....2,2">
<a href"http:www.google.com/....3,3">

我只想获取 http 链接,它们的独特模式是结尾。请帮忙,我在 gusb、regxpr 和 grep 的实验中被困了好几个小时。

4

1 回答 1

6

正则表达式很难与通用 URL ( URL Matching ) 匹配,但是如果您总是希望匹配该精确模式,您可以试试这个

`http:www\.google\.com/.*?(\d+),\1`

这将搜索 http:www.google.com 后跟任何内容,并在逗号的每一侧以相同的两个数字结尾,这就是您希望从您显示的模式中看到的内容。

于 2012-07-10T12:36:15.980 回答