-1

我想要做的是,获得一个文本训练集(自然语言),并使用自动创建的文本来增加这个集,试图模仿文本内容。我正在使用词袋假设,顺序无关紧要,语法无关紧要,我只想创建包含与基本主题相关的单词的文本。

现在我正在使用Latent Dirichlet Allocation将我的文档分类为主题分布,平均我的集合的主题分布,并从这些主题分布中生成文档。

我想知道两件事:

1-有没有更好的方法来做到这一点?

2-我可以用不属于我的集合域的文本训练 LDA,而不会污染我的主题:例如。我想增加的集合有关于政治的文本。我可以用任何类型的文本(汽车、时尚、音乐)训练我的模型,并对我的政治文本库进行分类,得到它的主题分布,并从这个分布中生成类似的文本。

我正在使用 python 2.7 和 gensim。

4

1 回答 1

0

NLTK 的 generate() 函数可能正是您想要的。

文档

generate(length=100)

打印使用三元语言模型生成的随机文本。

参数:

length (int) -- 要生成的文本长度(默认 = 100)

于 2013-09-17T16:56:07.353 回答