我有一个列表,其中包含一组类似于
- somesite.com/index.php?id=12
- somesite.com/index.php?id=14
- somesite.com/index.php?id=156
- example.com/view.php?image=441
- somesite.com/page.php?id=1
- example.com/view.php?ivideo=4
- somesite.com/page.php?id=56
- example.com/view.php?image=1
这些被存储到一个列表中,然后在爬取过程后显示在列表视图上。我尝试了不同的正则表达式模式,但仍然无法归档我真正需要的内容,因为查询字符串成了问题。
这是我尝试过的一种模式。
(http://?)(w*)(\.*)(\w*)(\.)(\w*)
让我写下我需要如何过滤上述 URL。
- somesite.com/index.php?id=12
- example.com/view.php?image=441
- somesite.com/page.php?id=1
- example.com/view.php?ivideo=4
如您所见,相同但具有不同查询字符串的页面已被删除。这就是我要归档的内容。请注意,上面的链接确实包含http://,但由于 SOF 将它们视为垃圾邮件,因此没有包含它们。任何人都可以帮助我解决这个问题。提前致谢。