Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
尝试使用胡萝卜2 进行结果集聚类。我对此有几个问题。
a) 我们能否根据 solr 中的特定字段对 Solr/Lucene 中的文档进行聚类?喜欢将它们基于名称、人名和地理距离位置(纬度、经度)与特定字段权重进行聚类?
b)我的集群用例并不是真的在线,它更像是一个批处理用例,鉴于此,我们是否仍然有这个 1K max no 的限制。结果?
Carrot2 仅基于文档的自然文本执行聚类。人名可能太短而无法进行有意义的聚类;Carrot2 不适用于地理距离和其他数值数据。
1k 限制/推荐是基于 Carrot2 的设计目标:以足够快的速度对小文本集合(例如搜索结果)进行聚类,以便该过程可以在线完成。Carrot2 在收集大约 1k 个文档时效果很好,但不会很好地扩展到超过数千个文档。