2

我正在使用 Mallet api 从 twitter 数据中提取主题,并且我已经提取了看起来不错的主题。但是我在估计 K 时遇到了问题。

例如,我将 K 值从 10 固定到 100。因此,我从数据中获取了不同数量的主题。但是,现在我想估计哪个 K 是最好的。有一些我知道的算法

  1. 困惑
  2. 经验可能性
  3. 边际似然(调和平均法)
  4. 轮廓

我找到了一个方法 model.estimate() 可以用来估计不同的 K 值。但我不知道 K 的值最适合模型。有没有人通过一些示例代码给出一些想法?谢谢。

4

1 回答 1

0

我认为最好的算法是人类的判断。创建具有不同主题数量的主题模型并查看它们并选择您喜欢的内容。有时您想微调主题的数量(例如,您不希望将某个主题分成两个,或者您希望某个主题存在而不合并到另一个主题中)。

于 2015-08-03T12:10:03.893 回答