1

我们的内部网络中有一些网页具有相同内容的相似页面(例如 UPS 管理控制台)。solr 总是只保留其中一个,因为它们具有相同的摘要。

    Indexer: finished at 2013-11-18 01:21:28, elapsed: 00:00:02
    SolrDeleteDuplicates: starting at 2013-11-18 01:21:28
    SolrDeleteDuplicates: Solr url: http://localhost:8983/solr/collection_test5
    SolrDeleteDuplicates: deleting 4 duplicates
    SolrDeleteDuplicates: finished at 2013-11-18 01:21:29, elapsed: 00:00:01
    crawl finished: crawl

所有 4 个已删除的重复项都具有不同的 url。我想将它们全部保存在 solr 中,而 solr 仍然可以删除其他类型的重复内容。我猜默认情况下该 url 不用于生成摘要,所以有没有办法设置使用该 url?我还有什么其他选择?

4

0 回答 0