1

我正在 Solr 中建立文档索引。文件不科学。

我有一个类链接到每个文件,它们可以用于教学。我想在添加时为新文档分配类别。一直添加文档而不重建所有索引。

文档也可以是同一件事,但来自不同的来源,所以我想进行文档聚类。因此,当添加文档时 - 我可以搜索过去 N 天内我是否已经有这样的主题,如果是的话 - 然后保存集群 ID。

索引大小约为 500k 文档并且还在不断增加,因此速度很重要。

所以我想为每个新文档计算:类别 ID(基于预定义文档的训练)、集群 ID(仅匹配 N 天,而不是整个索引)。

SOLR可以做到吗?或者最好制定单独的解决方案(如果是,那么是哪一个?)

4

2 回答 2

1

solr 6.1 和 lucene 6.1 现在具有此功能。它提供了现成的 knn 和 naive bayes。这是一篇关于如何在 solr 中使用它的好文章:基于 solr 的文本分类

于 2016-06-30T15:11:40.497 回答
0

你可以看看CarrotResult Clustering。但这可能不是你所追求的。

所以我认为你现在有两个选择:

  • 创建 Solr 插件(基于 Carrot 或其他插件)
  • 在添加文档之前进行手动查询
于 2014-08-20T07:48:15.530 回答