0

我正在从一组文档中学习一个主题模型,并且效果很好。但我想知道是否有任何现有系统实际上会从模型中的主题和单词生成新文档。

IE。假设我想要一个主题 0 的新文档,任何 Gensim/MALLET/其他工具实际上会在给定我的主题选择(或选择)的一些输入的情况下生成一个新文档吗?或者这是一个自己动手的问题?

假设我有两个主题:

topic #0: 0.009*river + 0.008*lake + 0.006*island + 0.005*mountain + 0.004*area + 0.004*park + 0.004*antarctic + 0.004*south + 0.004*mountains + 0.004*dam
topic #1: 0.026*relay + 0.026*athletics + 0.025*metres + 0.023*freestyle + 0.022*hurdles + 0.020*ret + 0.017*divisão + 0.017*athletes + 0.016*bundesliga + 0.014*medals

是否有任何工具可以采用“主题 0:.5,主题 1:.5,长度:7”并很好地生成如下文档:

island freestyle river south medals mountains area

或类似的规定?如果它已经存在,我不想复制它。

4

1 回答 1

1

您是否阅读过Mallet网站上的开发者指南和教程?它概述了如何创建具有某个主题的高概率文档:

    StringBuilder topicZeroText = new StringBuilder();
    Iterator<IDSorter> iterator = topicSortedWords.get(0).iterator();

    int rank = 0;
    while (iterator.hasNext() && rank < 5) {
        IDSorter idCountPair = iterator.next();
        topicZeroText.append(dataAlphabet.lookupObject(idCountPair.getID()) + " ");
        rank++;
    }

这段代码创建了一个很有可能成为主题 0 的新文档。这段代码可以很容易地修改为包含多个主题并具有一定的长度。

于 2015-10-13T13:08:58.560 回答