我使用 Nutch 1.5 进行爬网(使用了 crawl 命令),发布这个 readlinkdb 转储什么都不包含。此外,在索引过滤器中,链接为空。是什么导致链接为空?
问问题
578 次
1 回答
3
也许您只是在索引一个特定的站点。在这种情况下,如果db.ignore.internal.links
innutch-default.xml
为真,nutch 将不会存储内部链接。将其设置为 false in nutch-site.xml
,您的链接数据库将开始增长。
<property>
<name>db.ignore.internal.links</name>
<value>false</value>
<description>If true, when adding new links to a page, links from
the same host are ignored. This is an effective way to limit the
size of the link database, keeping only the highest quality
links.
</description>
</property>
于 2013-04-06T17:08:04.773 回答