我想要做的是,获得一个文本训练集(自然语言),并使用自动创建的文本来增加这个集,试图模仿文本内容。我正在使用词袋假设,顺序无关紧要,语法无关紧要,我只想创建包含与基本主题相关的单词的文本。
现在我正在使用Latent Dirichlet Allocation将我的文档分类为主题分布,平均我的集合的主题分布,并从这些主题分布中生成文档。
我想知道两件事:
1-有没有更好的方法来做到这一点?
2-我可以用不属于我的集合域的文本训练 LDA,而不会污染我的主题:例如。我想增加的集合有关于政治的文本。我可以用任何类型的文本(汽车、时尚、音乐)训练我的模型,并对我的政治文本库进行分类,得到它的主题分布,并从这个分布中生成类似的文本。
我正在使用 python 2.7 和 gensim。