search - 多个参数上的 Carrot2 集群

Question

你好，

我正在研究使用 Solr 和 Carrot2 的搜索引擎。

一切都很好，但胡萝卜做了一件我无法理解的奇怪事情。我想从 Solr 获取结果并使用 Carrot 对它们进行聚类。我整合了所有东西，效果很好，但 Carrot 只集中在我的一个属性上。与结果匹配且没有其他属性的那个。喜欢：

数据

姓名：彼得镇：伦敦爱好：高尔夫、滑雪

姓名：亚瑟镇：柏林爱好：高尔夫、骑自行车

名称：巴黎小镇：伦敦爱好：高尔夫、远足

查询词语：高尔夫

集群如：滑雪自行车远足

..但不是伦敦。

这本身不会让我感到惊讶，但是当我使用 CarrotClusteringWorkbench 时，它确实会聚集在其他参数上。

起初我尝试将配置从工作台导出到 Solrconfig，但它没有任何改变。Solr 使用这些配置，但它们都没有改变这个问题。

任何人都可以帮助我或解释它吗？

score 0 · Accepted Answer

您需要在您的 solrconfig.xml 中放置要集群的字段名称。要复制在 Carrot2 Clustering Workbench 中为您工作的配置，请将它们放在您的集群请求处理程序中（或在查询 URL 中提供）：

<!-- In Workbench this is "Title field name" -->
<str name="carrot.title">name</str>

<!-- In Workbench this is "Summary field name" -->
<str name="carrot.snippet">features</str>

一般来说，Carrot2 最适用于自然/非结构化文本，例如搜索结果、文档摘要或内容。如果您的字段包含表示某些结构化数据的字符串，则集群可能与您的预期相去甚远（以及专用集群算法可能产生的结果）。

search - 多个参数上的 Carrot2 集群

1 回答 1

Related

Reference