algorithm - 如何生成相关文本？

Question

我想要做的是，获得一个文本训练集（自然语言），并使用自动创建的文本来增加这个集，试图模仿文本内容。我正在使用词袋假设，顺序无关紧要，语法无关紧要，我只想创建包含与基本主题相关的单词的文本。

现在我正在使用Latent Dirichlet Allocation将我的文档分类为主题分布，平均我的集合的主题分布，并从这些主题分布中生成文档。

我想知道两件事：

1-有没有更好的方法来做到这一点？

2-我可以用不属于我的集合域的文本训练 LDA，而不会污染我的主题：例如。我想增加的集合有关于政治的文本。我可以用任何类型的文本（汽车、时尚、音乐）训练我的模型，并对我的政治文本库进行分类，得到它的主题分布，并从这个分布中生成类似的文本。

我正在使用 python 2.7 和 gensim。

score 0 · Accepted Answer

NLTK 的 generate() 函数可能正是您想要的。

generate(length=100)

打印使用三元语言模型生成的随机文本。

参数：

length (int) -- 要生成的文本长度（默认 = 100）

1 回答 1