3

斯坦福 TMT 的“summary.txt”文件的典型片段如下:

Topic00   37.47500834475079
    term1 11.163093014855274
    term2 2.8478206435760547
    term3 1.905685547333616
    term4 1.8341840331688735

到目前为止,我能够获得的关于这些数字的唯一信息是(来自http://nlp.stanford.edu/software/tmt/tmt-0.4):

[Snapshot]/summary.txt Human readable summary of the topic model, with top-20 terms per topic and how many words instances of each have occurred.

但是反对该主题的数字是什么意思?(在本例中,Topic00 37.47500834475079

4

3 回答 3

0

根据源代码中的文档,它是“每个主题看起来整体有多少次”

于 2014-01-22T19:44:41.137 回答
0

例如,您的输出有 30 个主题。每个主题显示其最热门的单词,以及这些单词在每个主题中的相对权重

于 2014-02-17T17:36:23.043 回答
0

我猜这个值是主题中的分布。它也可以表达主题中的重要性。可以看到Topic 00后面的数字,是所有term的权重之和。您还可以查看 topic-term-distributions.csv。您将看到每行的总和等于“主题**”之后的数字。

于 2016-01-02T23:39:17.543 回答