solr - Solr 中的文档聚类和分类？

Question

我正在 Solr 中建立文档索引。文件不科学。

我有一个类链接到每个文件，它们可以用于教学。我想在添加时为新文档分配类别。一直添加文档而不重建所有索引。

文档也可以是同一件事，但来自不同的来源，所以我想进行文档聚类。因此，当添加文档时 - 我可以搜索过去 N 天内我是否已经有这样的主题，如果是的话 - 然后保存集群 ID。

索引大小约为 500k 文档并且还在不断增加，因此速度很重要。

所以我想为每个新文档计算：类别 ID（基于预定义文档的训练）、集群 ID（仅匹配 N 天，而不是整个索引）。

SOLR可以做到吗？或者最好制定单独的解决方案（如果是，那么是哪一个？）

score 1 · Accepted Answer

solr 6.1 和 lucene 6.1 现在具有此功能。它提供了现成的 knn 和 naive bayes。这是一篇关于如何在 solr 中使用它的好文章：基于 solr 的文本分类

score 0 · Accepted Answer

你可以看看Carrot，Result Clustering。但这可能不是你所追求的。

所以我认为你现在有两个选择：

2 回答 2