我正在使用 Apache Nutch 1.7,我在使用 URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子 URL 进行爬网时遇到了这个问题,这个 URL 有很多内部链接存在于页面中,并且还有许多指向其他域的外部链接,我只对内部链接感兴趣。
但是,当抓取此页面时,不会添加其中的内部链接以在下一轮抓取中进行抓取(我给出的深度为 100)。我已经将 db.ignore.internal.links 设置为 false ,但由于某种原因,内部链接没有被添加到下一轮提取列表中。
另一方面,如果我将 db.ignore.external.links 设置为 false,它会正确地从页面中获取所有外部链接。
这个问题在任何其他域中都不存在,有人能告诉我这个特定页面是什么吗?
我还附上了我用于您审查的 nucth-site.xml,请告知。