0

你好,

我正在研究使用 Solr 和 Carrot2 的搜索引擎。

一切都很好,但胡萝卜做了一件我无法理解的奇怪事情。我想从 Solr 获取结果并使用 Carrot 对它们进行聚类。我整合了所有东西,效果很好,但 Carrot 只集中在我的一个属性上。与结果匹配且没有其他属性的那个。喜欢:

数据

姓名:彼得镇:伦敦爱好:高尔夫、滑雪

姓名:亚瑟镇:柏林爱好:高尔夫、骑自行车

名称:巴黎小镇:伦敦爱好:高尔夫、远足

查询词语:高尔夫

集群如:滑雪自行车远足

..但不是伦敦。

这本身不会让我感到惊讶,但是当我使用 CarrotClusteringWorkbench 时,它确实会聚集在其他参数上。

起初我尝试将配置从工作台导出到 Solrconfig,但它没有任何改变。Solr 使用这些配置,但它们都没有改变这个问题。

任何人都可以帮助我或解释它吗?

4

1 回答 1

0

您需要在您的 solrconfig.xml 中放置要集群的字段名称。要复制在 Carrot2 Clustering Workbench 中为您工作的配置,请将它们放在您的集群请求处理程序中(或在查询 URL 中提供):

<!-- In Workbench this is "Title field name" -->
<str name="carrot.title">name</str>

<!-- In Workbench this is "Summary field name" -->
<str name="carrot.snippet">features</str>

一般来说,Carrot2 最适用于自然/非结构化文本,例如搜索结果、文档摘要或内容。如果您的字段包含表示某些结构化数据的字符串,则集群可能与您的预期相去甚远(以及专用集群算法可能产生的结果)。

于 2011-07-14T10:15:41.747 回答