当 Nutch 完成爬网时,它会识别出要删除的重复项,并通过说“删除 xxx 个重复项”并顺利完成。唯一的问题是它实际上并没有删除重复项,尽管它说它已经删除了。
我也尝试过单独使用 dedup 命令,结果是一样的。
我有 Solr & Nutch 设置,如我的博客所示,如果您想更深入地研究,每个阶段都在不同的帖子中:
http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up -nutch-to-crawl-filesystem.html