我想知道是否有任何好的方法可以使用余弦相似度来比较单个文档和一组文档。显然,您可以计算单个文档和集合中每个文档之间的余弦相似度,但是如果这样做,您会取平均值吗?您是否会按与原始文档进行比较的每个其他文档的大小来衡量?我还想知道是否有任何方法可以将您要比较的文档集中的所有字数组合起来,以便最终只计算一次余弦相似度;在原始文档和“汇总”文档之间。我问的原因是我有大约 200,000 个文档要与单独的一组大约 50,000 个文档进行比较。将 200,000 个文档中的每个文档与 50 个文档中的每个文档进行比较,000 计算量很大,我不知道如果我最终还是要取某种平均值,是否真的有必要。我的汇总文档想法是一个很大的禁忌吗?
问问题
487 次