Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我使用 nutch 1.6 进行爬网,使用 solr 3.6.2 对爬网的 url 进行索引。但是,我只想保留包含details. 我所做的是添加许多(很多)过滤器到nutch/conf/regex-urlfilter.txt.
details
nutch/conf/regex-urlfilter.txt
我想知道是否有更好的解决方案,即使我应该抓取所有数据(url),然后在 Solr 中只过滤一次重要的(在Solrindex命令中)。
Solrindex
如果您不需要这些页面,最好从索引本身中过滤掉。 但是,如果您有可以在 Solr 中过滤的模式,则可以使用过滤器查询来进行过滤。