0

假设我有两台不同的机器正在使用 nutch 抓取两个不同的域。

现在我想将他们的 crawldb 合并为一个。我怎样才能做到这一点 ?

我在某处读到过 - 命令:

bin/nutch mergedb <crawldb1> <crawldb2>

做我打算做的事?

此外,如果假设其中一个 crawldb 是由本地托管网站的站点生成的,即说 wikipedia 自己爬网并将其存储为 crawldb1

和其他一些网站可以说stackoverflow也做了同样的事情。

在这种情况下,我可以将这两个 crawldb 合并为一个,但它会修改这些以反映它们的实际 url 而不是相对的(我的意思是 url wrt 数据库的新位置)。

对不起,如果我在描述中不是很清楚。提前致谢

4

2 回答 2

0

只有一种方法可以确定它是否有效,试一试。并首先阅读手册,您缺少合并的数据库参数。见http://wiki.apache.org/nutch/bin/nutch%20mergedb

于 2013-04-03T16:57:22.100 回答
0

可以合并两个db的所有url,在crawldb中总是完整存储的。Nutch 从不​​存储相对于任何东西的 URL。

您编写的命令会将 crawldb2 合并到 crawldb1

如果你想合并 crawldb localcrawldb 和 stackoverflowcrawldb

你写

bin/nutch crawldb mergecrawldb localcrawldb stackoverflowcrawldb

并且两个 crawldb 都将合并到 mergecrawldb 中。

于 2014-03-18T14:05:07.247 回答