0

我必须找到参考文档和存储库中的文档集之间的相似性。

Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows 

我的疑问:

  1. 由于我的数据库中有大约 7 个文档,因此我只得到 8*8 varray(document matrix) 。那么,如果我仅找到这 8 个值的余弦相似度,我会得到正确的结果吗?

  2. 这种方法普遍采用吗?

我使用 java 来编写代码。我使用 jama 包来查找 svd 。

4

1 回答 1

0
  • 我尝试过使用 TMG 工具箱的 Matlab。它工作正常。
  • 为了获得更好的结果(或更高的准确性),请使用更大的数据集。
  • 在 LSA 中,svd 是其中的一部分(用于降维)。为了计算您的余弦相似度,您将需要在此计算后获得的最后一个矩阵 A = U * S * V^t 。

您可以在此处阅读 LSA 的示例

于 2012-01-27T05:33:30.283 回答