我有非常大的 solr 索引。我想用能够更好地代表该文档的术语来标记所有文档。这种类型的聚类结果是否也属于文档标记?
哪种方法更好,索引时间文档标记或查询时间文档标记,如胡萝卜2?
我有非常大的 solr 索引。我想用能够更好地代表该文档的术语来标记所有文档。这种类型的聚类结果是否也属于文档标记?
哪种方法更好,索引时间文档标记或查询时间文档标记,如胡萝卜2?
查询时间有一个明显的缺点,那就是这会使查询更加昂贵。
但是,查询时的聚类结果应该更好,因为那时已经看到了更多信息并且可以合并用户反馈。
请注意,从技术上讲,这可能是比聚类分析更频繁的模式挖掘。
也许您应该在整个数据集上尝试这种频繁模式挖掘的变体。您甚至可能不需要存储以哪种方式标记了哪些文档 - solr 引擎应该已经优化,以便在需要时再次检索它们。
我从您的问题中了解到,您想知道如何使用 solr 实现类似于carrot2
faceting 的东西。
IMO,您可以使用该文档的集群名称将多值字段 tag
添加到您的文档(请参阅此Stack Overflow Question示例),然后使用该字段构建构面,如 Solr wiki here和here中所述。