我必须找到参考文档和存储库中的文档集之间的相似性。
Method :
1. I find the term document matrix for all the documents including the reference document
2. The svd is calculated for this matrix
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document .
5. The first row represents the reference document .
6. I find the cosine similarity beween this row and the rest of the rows
我的疑问:
由于我的数据库中有大约 7 个文档,因此我只得到 8*8 varray(document matrix) 。那么,如果我仅找到这 8 个值的余弦相似度,我会得到正确的结果吗?
这种方法普遍采用吗?
我使用 java 来编写代码。我使用 jama 包来查找 svd 。