我正在对 StackExchange 帖子进行标签预测和关键字提取。我有大约 36,000 个帖子,包括标题、正文和标签。我处理它们过滤掉嘈杂的元素。在此之后,我执行此处获得的标记潜在狄利克雷分配 (LLDA) 。
查看输出时,主题关键字分配的前半部分大部分都很好,例如:
Topic 0: Hardware
hardware 0.01417490938078998
apple 0.007714736647543383
macbook 0.004179344296774437
mac 0.003794235182959134
Topic 1: Mac
mac 0.09533364420104305
os 0.02075003721054881
mini 0.00682593613383348
macs 0.00435445224274711
Topic 2: PowerPC
powerpc 0.010548590021130589
ppc 0.007893573342376935
mac 0.0039821054483700795
ibook 0.003731934198917873
os 0.003471650527888505
但是,我越接近输出文件的末尾,主题关键字的分配就完全奇怪了:
Topic 976: Shopping-recommendation
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
Topic 977: PCI-Card
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
Topic 978: Tmux
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
Topic 979:
difference 7.5409094336777E-5
intel 7.5409094336777E-5
ppc 7.5409094336777E-5
turn 7.5409094336777E-5
有人可以解释一下为什么我最终得到了如此错误的任务吗?而且,为什么价值极低?
如前所述,我有大约 36,000 个帖子,这些是执行 LLDA 的值:
option.est = true;
option.alpha = 50/920 // 920 is number of topics
option.beta = 0.1;
option.niters = 3000;
option.twords = 15;
option.nburnin = 350;
option.samplingLag = 256;
我发现几乎没有关于以前值的文档,因此通过反复试验,我发现这些最适合我设法获得的值。但是,也许有更好理解的人可以向我解释和/或建议什么值是最好的?