我对 Apache Solr 和 Carrot2 都很陌生。我正在尝试使用 Solr 索引大量输入文件。最终目标是对文档进行聚类。
我不清楚集群是由 Solr 还是由 carrot2 工作台完成的?
任何人都可以指导我吗?
它可以通过两种方式完成。
在一个设置中,Carrot2 Workbench 可以从 Solr 获取搜索结果(就像从任何其他搜索引擎一样)并将它们聚集在一起。这条路线可能是最容易开始的,您只需要提供 Solr 服务的 URL 和字段名称即可为集群提供内容。
或者,您可以在 Solr 中配置搜索结果集群插件,该插件将在您的 Solr 服务器内执行集群,并将搜索结果集群作为 Solr 搜索响应的一部分。
在这两种情况下,集群都应用于文档的存储内容(原始文本),因此将文档集群在 Solr 中并没有太大的性能优势,也许除了减少序列化/反序列化开销之外。
最后,有一个有些过时的文档阐明了两种Carrot2-Solr 集成策略。