我有一组关键术语,并计算了 TF-IDF 权重以及每个术语的标签频率和术语计数,并保存在数据库中。
给定一个单数项,如何使用这些 DB 值生成一组相关项?
我已经阅读了 TF-IDF 上的 Wikipedia 页面,并使用了许多与余弦相似度、n-gram 算法等有关的 Google 搜索结果。我的强项不是线性代数、IR 或微积分,所以我很难理解这些文件。
我想知道 TF-IDF 权重与相关性的关系。有没有办法对这些值进行排名?我是否需要根据预定义术语的权重对它们进行排名?
既然我有了这些号码,我该如何使用它们?