3

我有这个文档的 SVD 分解

SVD分解

我已阅读此页面,但我不明白如何计算文档分离的最佳功能。

我知道:

S x Vt 给出了文档和特征之间的关系

U x S 给出了术语和特征之间的关系

但最佳特征选择的关键是什么?

4

1 回答 1

5

SVD 只关心输入,而不关心它们的标签。换句话说,它可以被视为一种无监督的技术。因此,如果不做任何进一步的假设,它就无法告诉您哪些特征有利于分离。

它确实告诉您,就仅使用基向量的子集重建原始数据而言,“基向量”比其他更重要。

不过,您可以按以下方式考虑 LSA(这只是解释,数学才是最重要的): 文档是由混合主题生成的。每个主题由一个长度向量表示n,它告诉您该主题中每个单词的可能性有多大。例如,如果主题是sports,那么类似 or 的词football比orgame更有可能bestsellermovie. 这些主题向量是 U 的列。为了生成文档(A 的列),您需要对主题进行线性组合。线性组合的系数是 Vt 的列 - 每列告诉您为了生成文档而要采用的主题比例。此外,每个主题都有一个整体“增益”因子,它告诉您该主题在您的文档集中有多么重要(也许您在 1000 个文档中只有一个关于体育的文档)。这些是奇异值 == S 的对角线。如果你扔掉较小的那些,你可以用更少的主题和少量的信息丢失来表示你的原始矩阵 A。当然,“小”是一个应用问题。

LSA 的一个缺点是,如何解释这些数字并不完全清楚——例如,它们不是概率。在文档中有“0.5”个单位是有意义的sports,但是有“-1”个单位是什么意思?

于 2014-01-28T11:47:40.163 回答