0

在 Nutch wiki 中,它建议使用以下内容:

bin/nutch solrindex <solr url> <crawldb> [-linkdb <linkdb>] [-params k1=v1&k2=v2...] (<segment> ... | -dir <segments>) [-noCommit] [-deleteGone] [-filter] [-normalize]

目的是什么

[-filter] [-normalize]

当 Nutch 有大量的过滤器和规范化配置文件时?

automaton-urlfilter.txt
domain-urlfilter.txt
regex-urlfilter.txt
suffix-urlfilter.txt
regex-normalize.xml
host-urlnormalizer.txt
4

1 回答 1

0

当索引到 Solr 时,这些配置文件默认设置为 false,因此如果您希望传递给 Solr 的索引被规范化或过滤,那么您将启用这些选项。

对我来说,这似乎是一个毫无意义的选择,但这只是因为这不是我希望我的 Solr 配置工作的方式,但它是一个更高级的功能,将使一小部分人受益

于 2013-08-16T14:27:04.360 回答