首先我必须提到,我的意思是文档集群是一种数据挖掘技术,而不是工作负载集群或类似的东西。
从一开始我会说我有什么:
- 我总是收到文件。让我们假设这些是新闻(这是相当相似的事情)。
- 每次我收到新一批“新闻”时,我都应该将它们添加到 Solr 索引并获取该文档的集群信息。将此信息存储在数据库中(所以我应该知道每个文档的集群)。
- 我等不及集群定义服务/程序不时启动,但它应该动态定义集群。
- 我希望只能在一段时间内获取集群(例如,我只想搜索一个月前加载的文档的集群)。
- 我每天将有数以万计的新文档和数百万的总基数。
很久以前我一直在使用一些库(不记得它的名字),它接收文档作为输入,并产生集群 ID,如果它认为它是一个新集群,那么它创建一个,等等。但它工作得很慢(我什至不记得它的名字)。
我找到了一本关于 Mahout 的书,但仍然不知道我应该读什么以及我想要什么。而且,也许,如果不为 Solr 编写自己的插件,就不可能使用 Solr/Mahout 做到这一点。
我将不胜感激有关如何构建此类系统的任何想法和建议。
提前致谢