问题:有没有一种简单的方法可以查看与每个奇异值相关的最重要的词?
背景:我已将 Mahout 的奇异值分解工具应用于一组新闻文章。这些文章来自两个主题:1)体育,2)商业。我想看看与每个奇异值相关的最重要的词。例如,对于一个奇异值,我可能期望最突出的词是体育术语:得分、团队、球员、教练。对于另一个奇异值,我可能希望看到商业术语:公司、利润、收入。
我的方法:我正在考虑为每个奇异值制作一个文件,其中——对于给定的奇异值——单词按重要性降序排列。这只是一个想法。我愿意接受建议。
下面是到目前为止我用来生成 Mahout 奇异值的代码:
/mahout-distribution-0.7/bin/mahout svd
-i /vectors/tfidf-vectors/
-o /svd-values/
--numRows 100
--numCols 591
-r 100