solr - Solr & Nutch - 仅索引某些 url

翻译自：https://stackoverflow.com/questions/16709250 2013-05-23T08:37:58.260

411 次

1

我使用 nutch 1.6 进行爬网，使用 solr 3.6.2 对爬网的 url 进行索引。但是，我只想保留包含details.
我所做的是添加许多（很多）过滤器到nutch/conf/regex-urlfilter.txt.

我想知道是否有更好的解决方案，即使我应该抓取所有数据（url），然后在 Solr 中只过滤一次重要的（在Solrindex命令中）。

1 回答 1

1

如果您不需要这些页面，最好从索引本身中过滤掉。
但是，如果您有可以在 Solr 中过滤的模式，则可以使用过滤器查询来进行过滤。

于 2013-05-23T09:02:36.123 回答