我正在使用潜在语义分析来进行文本相似性。我有 2 个问题。
降维如何选择K值?
我读了很多 LSI 用于类似含义的词的地方,例如汽车和汽车。这怎么可能???我在这里缺少什么神奇的步骤?
我正在使用潜在语义分析来进行文本相似性。我有 2 个问题。
降维如何选择K值?
我读了很多 LSI 用于类似含义的词的地方,例如汽车和汽车。这怎么可能???我在这里缺少什么神奇的步骤?
k的典型选择是 300。理想情况下,您可以根据使用缩减向量的评估指标设置k 。例如,如果您正在对文档进行聚类,则可以选择使聚类解决方案得分最大化的k。如果您没有要衡量的基准,那么我会根据您的数据集有多大来设置k 。如果您只有 100 个文档,那么您不会期望需要数百个潜在因素来表示它们。同样,如果您有一百万个文档,那么 300 个可能太小了。但是,根据我的经验,只要k不太小(即k= 300 与k = 1000 一样好)。
您可能会将 LSI 与潜在语义分析(LSA) 混淆。它们是非常相关的技术,不同之处在于 LSI 对文档进行操作,而 LSA 对单词进行操作。两种方法都使用相同的输入(术语 x 文档矩阵)。如果您想尝试一下,有几个很好的开源 LSA 实现。LSA 维基百科页面有一个完整的列表。
尝试 [1..n] 中的几个不同的值,看看哪些对您要完成的任务有效
制作一个单词-单词相关矩阵[即 cell(i,j) 保存 (i,j) co-occur 的文档数] 并在其上使用类似 PCA 的东西