1

我正在练习使用 LSA 对安然数据集(所有电子邮件)进行分类。我的理解是要成功执行任何进一步的分类或聚类,我需要使用 TruncatedSVD 执行较低等级的近似以最大化方差。

我已经完成了我能想到的所有预处理,包括 1)删除所有标点符号 2)删除少于 2 个字符的单词 3)删除文本大小小于 1500 字节的文档(tfidf 对较长的文本效果更好) 4)删除停用词

但是,如果我将每个 SKlearn 建议的 LSA 组件设置为 100,我只能得到 35% 的方差(svd.explained_variance_ratio_.sum())。我尝试使用 component = 2000,并且可以得到 80%。(我在某处读到说需要按照建议获得 90% 的方差?)

所以我的问题是要执行一个成功的 LSA,1)如何测试和挑选组件的数量 2)高组件数量是否正常?3)我能做些什么来增加方差,同时保持组件数量低?

4

0 回答 0