0

我有非常大的 solr 索引。我想用能够更好地代表该文档的术语来标记所有文档。这种类型的聚类结果是否也属于文档标记?

哪种方法更好,索引时间文档标记或查询时间文档标记,如胡萝卜2?

4

2 回答 2

1

查询时间有一个明显的缺点,那就是这会使查询更加昂贵。

但是,查询时的聚类结果应该更好,因为那时已经看到了更多信息并且可以合并用户反馈。

请注意,从技术上讲,这可能是比聚类分析更频繁的模式挖掘

也许您应该在整个数据集上尝试这种频繁模式挖掘的变体。您甚至可能不需要存储以哪种方式标记了哪些文档 - solr 引擎应该已经优化,以便在需要时再次检索它们。

于 2012-11-19T09:16:10.333 回答
0

我从您的问题中了解到,您想知道如何使用 solr 实现类似于carrot2faceting 的东西。

IMO,您可以使用该文档的集群名称将多值字段 tag添加到您的文档(请参阅此Stack Overflow Question示例),然后使用该字段构建构面,如 Solr wiki herehere中所述。

于 2012-11-19T06:16:57.533 回答