solr - 参数和会话 ID 的 Nutch URL 正则表达式规范化

Question

使用 Nutch 在抓取具有以下参数的 URL 时是否存在任何风险（例如循环）

http://something.com?page=index

url-regexfilter 会忽略此类 URL。如果我删除此过滤器，我是否可能会忽略可能导致问题的某些内容？

score 1 · Accepted Answer

Nutch 删除了查询字符串，因此解析具有它们的 URL 没有问题。查询字符串最有可能被删除的原因是因为某些网站在查询字符串中添加了跟踪信息，并且它可能会通过重复排队相同的链接来潜在地迫使“愚蠢”的爬虫进入“无限循环”，这些链接的唯一区别是跟踪信息请求参数。

更新：

事实证明，Nutch 允许您通过注释掉 crawl_urlfilter.txt 和 regex-urlfilter.txt 中的相应行来启用对查询字符串的爬取，以启用对包含“？”的 URL 的爬取。在他们中。

但是，正如我在下面的评论中提到的：查询字符串可能包含跟踪信息，这可能会导致爬虫的 URL-seen 测试出现问题。第一个问题是它会使 URL-seen 数据库太大，因为会有很多重复，唯一的区别是查询字符串中的跟踪信息。第二个问题是运行 URL-seen 测试会变得很慢，因为数据库太大了！

因此，在更改是否应允许查询字符串的选项时请记住这一点。