0

我发现很难创建一个正则表达式(rubular)语法,我可以使用我们的爬虫来提取所有以“下载”一词结尾的 URL。能否请你帮忙?非常感谢!

以下是要匹配的网址

https://www.example.com/folder1/download
https://www.example.com/folder1/download/
https://www.example.com/folder1/folder2/download?cmp=abc

注:一。结束词 ii 之前可以有多个文件夹。结尾词可以附加一个查询字符串或一个正斜杠 iii。URL 大多是相对 URL。但是,如果正则表达式匹配绝对 URL、没有指定任何协议的 URL、有或没有 www 部分,那就更好了。

Ex.
<a href="/product-category/product-name/download">Download Tool</a>
Or
<a href="https://www.example.com/product-category/product-name/download">Download Tool</a>
Or
<a href="http://www.example.com/product-category/product-name/download">Download Tool</a>
Or
<a href="www.example.com/product-category/product-name/download">Download Tool</a>
Or
<a href="example.com/product-category/product-name/download">Download Tool</a>

尽管上述大部分内容最终会出现 301 重定向或不能被视为有效 URL,但在此爬网中找到此类异常仍然很棒。

爬虫背景:这是正则表达式设置选项卡 - https://www.screencast.com/t/LJsKobubg3 这是我过去在开发团队的帮助下使用正则表达式成功运行的自定义爬取之一(现在无法访问) - https://www.screencast.com/t/9mT2pSoP7sI 这就是最终结果的样子 - https://www.screencast.com/t/MC5MNaJXi

最终结果是一个显示所有源页面 + URL 匹配的电子表格。

我得到了一个正则表达式,但这与相对 URL 不匹配,并且还会在最终结果报告中提取所有周围的 HTML 文本,而不仅仅是 URL。https://regex101.com/r/5nHp8s/1

再次非常感谢您对我的帮助。

4

0 回答 0