1

我正在使用 Apache Nutch 1.7,我在使用 URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子 URL 进行爬网时遇到了这个问题,这个 URL 有很多内部链接存在于页面中,并且还有许多指向其他域的外部链接,我只对内部链接感兴趣。

但是,当抓取此页面时,不会添加其中的内部链接以在下一轮抓取中进行抓取(我给出的深度为 100)。我已经将 db.ignore.internal.links 设置为 false ,但由于某种原因,内部链接没有被添加到下一轮提取列表中。

另一方面,如果我将 db.ignore.external.links 设置为 false,它会正确地从页面中获取所有外部链接。

这个问题在任何其他域中都不存在,有人能告诉我这个特定页面是什么吗?

我还附上了我用于您审查的 nucth-site.xml,请告知。

4

1 回答 1

3

默认过滤器会忽略您的种子网址,因此您的页面不会被抓取。

编辑以下文件:

conf/automaton-urlfilter.txt

conf/正则表达式-urlfilter.txt

代替

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*
于 2013-10-16T21:56:50.263 回答