我正在研究一个包含向量空间模型的基本实现的项目。文档集合 d1...dn 形成术语文档矩阵的列,行代表集合中的单词。我使用具有余弦相似度的标准 tf-idf 评分来计算查询和文档之间的距离。
我的问题是,哪个距离度量可以“解决”短文档之间的相似性。示例:包含单个单词的文档,它是查询的一部分,使用余弦相似度将得分非常高,因为这样的文档的范数非常小。我怎样才能“惩罚”这些明显不相关的文件?
我正在研究一个包含向量空间模型的基本实现的项目。文档集合 d1...dn 形成术语文档矩阵的列,行代表集合中的单词。我使用具有余弦相似度的标准 tf-idf 评分来计算查询和文档之间的距离。
我的问题是,哪个距离度量可以“解决”短文档之间的相似性。示例:包含单个单词的文档,它是查询的一部分,使用余弦相似度将得分非常高,因为这样的文档的范数非常小。我怎样才能“惩罚”这些明显不相关的文件?