nutch - 与 crwaling 网站有关的 Nutch 问题，其中 url 仅在参数传递方面有所不同

Question

我正在使用 Nutch 来抓取网站，但奇怪的是，对于我的一个网站来说，Nutch 抓取只返回两个 url，主页 url ( http://mysite.com/ ) 和另一个。

我网站上的网址基本上都是这种格式

即 url 仅在附加到 url 的参数方面有所不同（“ http://mysite.com/index.php？”部分对所有 url 都是通用的）

Nutch 是否无法抓取此类网站？

为了抓取此类网站，我应该执行哪些 Nutch 设置？

score 1 · Accepted Answer

我解决了这个问题。它与设置为的 url 过滤器有关

跳过包含某些字符的 URL 作为可能的查询等

-[?*!@=]

我评论了这个过滤器和 Nutch crawle dall urls :)