从早上开始,我已经阅读了很多教程。我的问题涉及找到两个文档之间的相似性。为此,我期待在 java 中使用 LSA。
我了解术语文档矩阵的创建,然后将 SVD(维数减少)应用于它。结果获得了 3 个矩阵。这听起来可能很愚蠢,但我已经坚持了很长一段时间。现在,如果我必须找到两个文档之间的相似性,我该怎么办?
从早上开始,我已经阅读了很多教程。我的问题涉及找到两个文档之间的相似性。为此,我期待在 java 中使用 LSA。
我了解术语文档矩阵的创建,然后将 SVD(维数减少)应用于它。结果获得了 3 个矩阵。这听起来可能很愚蠢,但我已经坚持了很长一段时间。现在,如果我必须找到两个文档之间的相似性,我该怎么办?
使用 SVD 计算了 3 个矩阵后,需要计算要比较的两个文档的向量之间的相关性。你可以使用斯皮尔曼的相关性。另一种方法是使用余弦距离。
你会在LSA找到更多细节,有一个完整的例子和解释。
您可能会搜索一些用于 LSA 的 java 库。