0

尝试使用胡萝卜2 进行结果集聚类。我对此有几个问题。

a) 我们能否根据 solr 中的特定字段对 Solr/Lucene 中的文档进行聚类?喜欢将它们基于名称、人名和地理距离位置(纬度、经度)与特定字段权重进行聚类?

b)我的集群用例并不是真的在线,它更像是一个批处理用例,鉴于此,我们是否仍然有这个 1K max no 的限制。结果?

4

1 回答 1

0

Carrot2 仅基于文档的自然文本执行聚类。人名可能太短而无法进行有意义的聚类;Carrot2 不适用于地理距离和其他数值数据。

1k 限制/推荐是基于 Carrot2 的设计目标:以足够快的速度对小文本集合(例如搜索结果)进行聚类,以便该过程可以在线完成。Carrot2 在收集大约 1k 个文档时效果很好,但不会很好地扩展到超过数千个文档。

于 2014-01-06T19:26:19.817 回答