-1

我有两个集群作为一个类

Cluster : class

DocumentList : List<Document>
centroidVector : Map<String,Double>

现在的问题是,当查询被搜索时,它被解析为一个文件,然后被制作成一个文档对象,添加到 documentIndex 并且它的索引与其他文档一起构建。我这样做是因为它必须经过相同的过程,即标记化、词干提取等。但是现在我想在查询向量最相似的特定集群中实现查询搜索,即点积 ~ 0.5 -1。所以我必须在查询向量和集群向量之间取一个点积来做到这一点。但我不知道如何实现它,因为索引是在内存中创建的,而不是存储在数据库中。仍在进行中。

谢谢

4

1 回答 1

2

聚类并不意味着搜索(即索引等)。这是一个分析步骤,旨在在您的数据集中找到可能的未知结构,而不是更快地检索信息。您有时可以利用该结构进行更快的搜索,但随后您需要一个可以利用它的索引。

如果您想进行相似性搜索,请立即进行索引!然后尝试通过之前进行一些聚类来改进索引。

于 2012-07-19T18:56:02.270 回答