0

首先我必须提到,我的意思是文档集群是一种数据挖掘技术,而不是工作负载集群或类似的东西。

从一开始我会说我有什么:

  • 我总是收到文件。让我们假设这些是新闻(这是相当相似的事情)。
  • 每次我收到新一批“新闻”时,我都应该将它们添加到 Solr 索引并获取该文档的集群信息。将此信息存储在数据库中(所以我应该知道每个文档的集群)。
  • 我等不及集群定义服务/程序不时启动,但它应该动态定义集群。
  • 我希望只能在一段时间内获取集群(例如,我只想搜索一个月前加载的文档的集群)。
  • 我每天将有数以万计的新文档和数百万的总基数。

很久以前我一直在使用一些库(不记得它的名字),它接收文档作为输入,并产生集群 ID,如果它认为它是一个新集群,那么它创建一个,等等。但它工作得很慢(我什至不记得它的名字)。

我找到了一本关于 Mahout 的书,但仍然不知道我应该读什么以及我想要什么。而且,也许,如果不为 Solr 编写自己的插件,就不可能使用 Solr/Mahout 做到这一点。

我将不胜感激有关如何构建此类系统的任何想法和建议。

提前致谢

4

2 回答 2

0

相当老的帖子,不过让我回应一下,您可以使用carrot2 http://project.carrot2.org/index.html 进行solr 结果聚类。这总是在飞行中。

于 2014-01-07T14:36:52.200 回答
0

我认为您不需要任何类型的自定义 Solr 插件。这是因为新文档的分类可以在您的“新闻”的正常索引过程中确定,因此您可以将其作为正常字段添加到每个 Solr 文档。

当谈到使用 Mahout 进行聚类和分类时,我会说Mahout in Action这本书是一个很好的入门资源。

干杯。

于 2012-09-13T07:44:57.873 回答