nlp - 非常短文档的文档查询相似度

翻译自：https://stackoverflow.com/questions/17542341 2013-07-09T07:22:37.480

508 次

我正在研究一个包含向量空间模型的基本实现的项目。文档集合 d1...dn 形成术语文档矩阵的列，行代表集合中的单词。我使用具有余弦相似度的标准 tf-idf 评分来计算查询和文档之间的距离。

我的问题是，哪个距离度量可以“解决”短文档之间的相似性。示例：包含单个单词的文档，它是查询的一部分，使用余弦相似度将得分非常高，因为这样的文档的范数非常小。我怎样才能“惩罚”这些明显不相关的文件？

0 回答 0