0

我正在尝试构建一个模型,该模型将尝试识别所提供文本的兴趣类别/主题。例如:

从我们令人筋疲力尽的各种美丽和设计师设计的纱丽中购买新娘婚礼纱丽。获得超值优惠、优质拼接和免费国际送货服务。

将解析为顶级类别,例如:

时尚或婚礼时尚

为了实现这一点,我使用了潜在狄利克雷分配 (LDA),它是一种主题模型,它根据一组文档中的词频生成主题。

所以我得到了如下的文档主题,但没有找到将它们映射到人类可以理解的格式的方法

主题#0 (0.500):0.100*sare + 0.060*intern + 0.060*get + 0.060*deal + 0.060*exhaust + 0.060*design + 0.060*free + 0.060*qualiti + 0.060*shop + 0.060*great

主题 #1 (0.500):0.063*sare + 0.063*beauti + 0.063*deliveri + 0.063*stitch + 0.063*varieti + 0.063*wed + 0.062*bridal + 0.062*great + 0.062*shop + 0.062*qualiti

我已经使用此脚本来实现上述内容。

所以问题是如何将上述确定的主题映射到时尚等人类可读的类别?

4

0 回答 0