0

我是主题建模的新手。

所以我希望有经验的人可以回答我的问题。这是我的数据的简化格式: 1. 我有一个尺寸为 1000*2 的 csv 文件。(混合主题) 2. 每行是一个文档和一个文档 ID。每个文档可以有多行,并且文档可以像这样:例如,电影是关于哈利波特的。我喜欢看。

因此,我想从主题模型中找到自然集群/主题,并根据 TOP 术语手动将标签分配给集群。

因此,我将每个文档拆分为单独的标记并使用 LDA,然后使用最低的困惑分数来获得最佳集群。

使用 LDA 后,我绘制了每个主题最常出现的术语的可视化。

但是,1. 我不确定我是否应该做一个 bi/n 克 - 如果是的话怎么做?因为我知道有些术语必须一起出现。2. 我必须使用网络图来查看不同术语之间的相互关系吗?还是不同的主题链接在一起?3. 不太确定我的做法是否正确

4

0 回答 0