0

我正在对 StackExchange 帖子进行标签预测和关键字提取。我有大约 36,000 个帖子,包括标题、正文和标签。我处理它们过滤掉嘈杂的元素。在此之后,我执行此处获得的标记潜在狄利克雷分配 (LLDA) 。

查看输出时,主题关键字分配的前半部分大部分都很好,例如:

Topic 0: Hardware
 hardware 0.01417490938078998
 apple  0.007714736647543383
 macbook    0.004179344296774437
 mac    0.003794235182959134

Topic 1: Mac
 mac    0.09533364420104305
 os 0.02075003721054881
 mini   0.00682593613383348
 macs   0.00435445224274711

Topic 2: PowerPC
 powerpc    0.010548590021130589
 ppc    0.007893573342376935
 mac    0.0039821054483700795
 ibook  0.003731934198917873
 os 0.003471650527888505

但是,我越接近输出文件的末尾,主题关键字的分配就完全奇怪了:

Topic 976: Shopping-recommendation
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 977: PCI-Card
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 978: Tmux
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

Topic 979:
difference  7.5409094336777E-5
intel   7.5409094336777E-5
ppc 7.5409094336777E-5
turn    7.5409094336777E-5

有人可以解释一下为什么我最终得到了如此错误的任务吗?而且,为什么价值极低?

如前所述,我有大约 36,000 个帖子,这些是执行 LLDA 的值:

option.est = true;
option.alpha = 50/920 // 920 is number of topics
option.beta = 0.1;
option.niters = 3000;
option.twords = 15;
option.nburnin = 350;
option.samplingLag = 256;

我发现几乎没有关于以前值的文档,因此通过反复试验,我发现这些最适合我设法获得的值。但是,也许有更好理解的人可以向我解释和/或建议什么值是最好的?

4

0 回答 0