我正在使用 gensim 的包在语料库上实现 LSI。我的目标是找出语料库中出现频率最高的不同主题。
如果我不知道语料库中的主题数量(我估计在 5 到 20 之间),那么设置 LSI 应该搜索的主题数量的最佳方法是什么?寻找大量主题(20-30)还是少量主题(〜5)更好?
我正在使用 gensim 的包在语料库上实现 LSI。我的目标是找出语料库中出现频率最高的不同主题。
如果我不知道语料库中的主题数量(我估计在 5 到 20 之间),那么设置 LSI 应该搜索的主题数量的最佳方法是什么?寻找大量主题(20-30)还是少量主题(〜5)更好?