免责声明:我知道 html 和 regex 不应该站在一起,但这是一个例外情况。
我需要解析 Google 搜索结果并提取缓存 url。我在页面上有这个:
<a href="/url?q=http://webcache.googleusercontent.com/search%3Fq%3Dcache:
gsNKb7ku3ewJ:somedata&ei=MyIIUtrZAcPX7AaVzIHwDg&ved=0CB8QIDAC&usg
=AFQjCNGcnWfdzQiTKwyAMmI-M-xzxII5Ag">Cached</a>
我尝试了简单的东西,例如:href=[\'"]?([^\'" >]+)
但这不是我需要的。我想从href中提取一个参数(q)。我需要得到:
http://webcache.googleusercontent.com/search%3Fq%3Dcache:gsNKb7ku3ewJ:somedata
因此,当内容中包含单词“webcache”时,“url?q=”和第一个“&”之间的所有内容。