1

我使用 nutch 1.6 进行爬网,使用 solr 3.6.2 对爬网的 url 进行索引。但是,我只想保留包含details.
我所做的是添加许多(很多)过滤器到nutch/conf/regex-urlfilter.txt.

我想知道是否有更好的解决方案,即使我应该抓取所有数据(url),然后在 Solr 中只过滤一次重要的(在Solrindex命令中)。

4

1 回答 1

1

如果您不需要这些页面,最好从索引本身中过滤掉。
但是,如果您有可以在 Solr 中过滤的模式,则可以使用过滤器查询来进行过滤。

于 2013-05-23T09:02:36.123 回答