web-crawler - Apache Nutch 未将网页中的内部链接添加到 fetchlist

Question

我正在使用 Apache Nutch 1.7，我在使用 URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子 URL 进行爬网时遇到了这个问题，这个 URL 有很多内部链接存在于页面中，并且还有许多指向其他域的外部链接，我只对内部链接感兴趣。

但是，当抓取此页面时，不会添加其中的内部链接以在下一轮抓取中进行抓取（我给出的深度为 100）。我已经将 db.ignore.internal.links 设置为 false ，但由于某种原因，内部链接没有被添加到下一轮提取列表中。

另一方面，如果我将 db.ignore.external.links 设置为 false，它会正确地从页面中获取所有外部链接。

这个问题在任何其他域中都不存在，有人能告诉我这个特定页面是什么吗？

我还附上了我用于您审查的 nucth-site.xml，请告知。

score 3 · Accepted Answer

默认过滤器会忽略您的种子网址，因此您的页面不会被抓取。

编辑以下文件：

conf/automaton-urlfilter.txt

conf/正则表达式-urlfilter.txt

代替

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

和

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*

web-crawler - Apache Nutch 未将网页中的内部链接添加到 fetchlist

1 回答 1

Related

Reference