0

我正在尝试使用主题模型生成提取术语的分类法。因此,我不得不使用分层潜在狄利克雷分配。但是,在获得主题树后,我想对主题进行注释,但我无法在 Mallet 中生成单词主题分布。我检查了参数,似乎我能得到的唯一输出文件就是输出状态,它没有显示所需的信息。

我正在从命令窗口使用槌实现,我正在使用以下命令行:

bin/mallet run cc.mallet.topics.tui.HierarchicalLDATUI --input my_corpus.mallet --output-state topic-statehlda.txt

我设法获得了topic-statehlda.txt,其中包含单词的所有主题路径,并且我还对其进行了可视化(主题树TopicsTree的示例- 修剪的术语,因为它们使树变大且难以导航)。有些术语出现在多个主题中,这就是为什么我对单词-主题分布感兴趣,以便能够选择最具代表性的术语。

你能给些建议么?有没有办法以不同的方式检索主题标签?

我正在对来自同一主题的文档应用 HLDA,并且我仅使用 HLDA 在自动提取的术语(名词短语)列表中提取可能的分类法,这看起来有意义还是不好的做法?

语料库是 OCR 处理的保险文件的集合。我自动提取的分类法的一个示例是:

汽车保险单, 汽车保单计划表, 摩托车保单计划表, 保单承保, 保险使用, 封面说明, 盗窃保险, 挡风玻璃盖, 综合保险, 故障保险, 商用车保单, 商用车, 摩托车, 车辆保单持有人, 车辆保险公司, 被保险人车辆

我正在尝试建立一个分类法,例如前 3 个短语位于同一节点下(属于同一级别)

4

0 回答 0