solr - 在 Solr 中聚类文档

Question

首先我必须提到，我的意思是文档集群是一种数据挖掘技术，而不是工作负载集群或类似的东西。

从一开始我会说我有什么：

很久以前我一直在使用一些库（不记得它的名字），它接收文档作为输入，并产生集群 ID，如果它认为它是一个新集群，那么它创建一个，等等。但它工作得很慢（我什至不记得它的名字）。

我找到了一本关于 Mahout 的书，但仍然不知道我应该读什么以及我想要什么。而且，也许，如果不为 Solr 编写自己的插件，就不可能使用 Solr/Mahout 做到这一点。

我将不胜感激有关如何构建此类系统的任何想法和建议。

提前致谢

score 0 · Accepted Answer

相当老的帖子，不过让我回应一下，您可以使用carrot2 http://project.carrot2.org/index.html 进行solr 结果聚类。这总是在飞行中。

score 0 · Accepted Answer

我认为您不需要任何类型的自定义 Solr 插件。这是因为新文档的分类可以在您的“新闻”的正常索引过程中确定，因此您可以将其作为正常字段添加到每个 Solr 文档。

当谈到使用 Mahout 进行聚类和分类时，我会说Mahout in Action这本书是一个很好的入门资源。

干杯。

2 回答 2