0

我正在尝试在 mahout 中运行 SVD 作业。我创建了一个大小为 372053 x 21338 的矩阵(比如 A)(文档 x 术语)(21338 个唯一词说 N,372053 个文档说 M)。所以我的矩阵 A 的大小是 (M*N)。我使用 mahout 运行了 svd,我得到了清理后的特征向量(我给出了预期的等级为 200 说 R)。现在我有一个大小为 R*N 的特征向量矩阵。

说明 SVD 方程

A = U * S * V'(V' 是 V 的转置)

我需要将矩阵 A 转换为新空间,以获取文档的压缩向量(我正在尝试实现 LSI)

我从 mahout SVD 得到的输出是什么?(我想知道上面的等式)我阅读了邮件列表,我们可以从生成的特征向量矩阵中的 NamedVectors 中获取特征值。

请指导我如何从这里开始在新空间(大小为 M*R)中生成文档术语矩阵 A。

非常感谢任何帮助:)

4

1 回答 1

0

可以在这里找到在 Mahout 上使用随机 SVD 的 LSI 的良好起点。好的部分是该论文还描述了折叠过程,并且根据 svd 方程明确了输出格式。

该作品集成在最新版本 0.8 中,可以与SSVDCli作业一起使用,也可以通过 mahout CLI 与mahout ssvd <options>

于 2013-10-29T15:31:14.937 回答