我有一个非常奇怪的问题:我在 html 网站上搜索 URL,并且只想要 url 的特定部分。在我的测试 html 页面中,链接只出现一次,但我得到的不是一个结果,而是大约 20...
这是我正在使用的正则表达式:
perl -ne 'm/http\:\/\myurl\.com\/somefile\.php.+\/afolder\/(.*)\.(rar|zip|tar|gz)/; print "$1.$2\n";'
示例输入将是这样的:
<html><body><a href="http://myurl.com/somefile.php&x=foo?y=bla?z=sdf?path=/foo/bar/afolder/testfile.zip?more=arguments?and=evenmore">Somelinknme</a></body></html>
这是一个非常简单的例子。所以实际上链接会出现在一个普通的网站上,内容围绕着......
我的结果应该是这样的:
testfile.zip
但相反,我经常看到这条线......这是正则表达式的问题还是其他问题?