java - 标记的潜在狄利克雷分配输入值

Question

我正在对 StackExchange 帖子进行标签预测和关键字提取。我有大约 36,000 个帖子，包括标题、正文和标签。我处理它们过滤掉嘈杂的元素。在此之后，我执行此处获得的标记潜在狄利克雷分配 (LLDA) 。

查看输出时，主题关键字分配的前半部分大部分都很好，例如：

Topic 0: Hardware
 hardware 0.01417490938078998
 apple  0.007714736647543383
 macbook    0.004179344296774437
 mac    0.003794235182959134

Topic 1: Mac
 mac    0.09533364420104305
 os 0.02075003721054881
 mini   0.00682593613383348
 macs   0.00435445224274711

Topic 2: PowerPC
 powerpc    0.010548590021130589
 ppc    0.007893573342376935
 mac    0.0039821054483700795
 ibook  0.003731934198917873
 os 0.003471650527888505

但是，我越接近输出文件的末尾，主题关键字的分配就完全奇怪了：

Topic 976: Shopping-recommendation
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 977: PCI-Card
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 978: Tmux
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 979:
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

有人可以解释一下为什么我最终得到了如此错误的任务吗？而且，为什么价值极低？

如前所述，我有大约 36,000 个帖子，这些是执行 LLDA 的值：

option.est = true;
option.alpha = 50/920 // 920 is number of topics
option.beta = 0.1;
option.niters = 3000;
option.twords = 15;
option.nburnin = 350;
option.samplingLag = 256;

我发现几乎没有关于以前值的文档，因此通过反复试验，我发现这些最适合我设法获得的值。但是，也许有更好理解的人可以向我解释和/或建议什么值是最好的？

java - 标记的潜在狄利克雷分配输入值

0 回答 0

Related

Reference