1

通过我对 LSI(机械工程背景)的适度理解,请耐心等待:

在 LSI 中执行 SVD 后,您有 3 个矩阵:

U、S 和 V 转置。

U 将单词与主题进行比较,S 是每个特征强度的一种度量。Vt 将主题与文档进行比较。

 U dot S dot Vt

返回 SVD 之前的原始矩阵。如果不做太多(无)深入的代数,似乎:

 U dot S dot **Ut**

返回逐项矩阵,该矩阵提供项之间的比较。即一个术语与其他术语的相关程度,一种比较单词而不是组件的DSM(设计结构矩阵)。我可能完全错了,但我在样本数据集上进行了尝试,结果似乎很有意义。但这可能只是偏见(我希望它起作用,所以我看到了我想要的)。由于文档受到保护,我无法发布结果。

不过我的问题是:这有意义吗?逻辑上?数学上?

感谢您的任何时间/回复。

4

1 回答 1

0

如果您想知道一个术语与另一个术语的相关程度,您可以计算

(U 点 S)

这些术语由行向量表示。然后,您可以通过应用距离函数(例如欧几里德距离)来计算距离矩阵。一旦通过计算所有向量之间的距离来制作距离矩阵,结果矩阵应该是空心对称的,所有距离 > 0。如果距离 A[i,j] 很小,那么它们是相关的,否则它们不相关。

于 2013-03-04T11:27:54.687 回答