我们的内部网络中有一些网页具有相同内容的相似页面(例如 UPS 管理控制台)。solr 总是只保留其中一个,因为它们具有相同的摘要。
Indexer: finished at 2013-11-18 01:21:28, elapsed: 00:00:02
SolrDeleteDuplicates: starting at 2013-11-18 01:21:28
SolrDeleteDuplicates: Solr url: http://localhost:8983/solr/collection_test5
SolrDeleteDuplicates: deleting 4 duplicates
SolrDeleteDuplicates: finished at 2013-11-18 01:21:29, elapsed: 00:00:01
crawl finished: crawl
所有 4 个已删除的重复项都具有不同的 url。我想将它们全部保存在 solr 中,而 solr 仍然可以删除其他类型的重复内容。我猜默认情况下该 url 不用于生成摘要,所以有没有办法设置使用该 url?我还有什么其他选择?