我正在 Solr 中建立文档索引。文件不科学。
我有一个类链接到每个文件,它们可以用于教学。我想在添加时为新文档分配类别。一直添加文档而不重建所有索引。
文档也可以是同一件事,但来自不同的来源,所以我想进行文档聚类。因此,当添加文档时 - 我可以搜索过去 N 天内我是否已经有这样的主题,如果是的话 - 然后保存集群 ID。
索引大小约为 500k 文档并且还在不断增加,因此速度很重要。
所以我想为每个新文档计算:类别 ID(基于预定义文档的训练)、集群 ID(仅匹配 N 天,而不是整个索引)。
SOLR可以做到吗?或者最好制定单独的解决方案(如果是,那么是哪一个?)