我有由一列组成的文本数据。我正在尝试对这些数据进行主题建模。我试过LDA和CTM。我正在寻找主题之间的良好分离。我的结果总是显示我的大部分数据都集中在一个主要主题中,而其他主题的结果很少,这也导致了主题之间的重叠。我的预处理包括删除以下内容:最常见的单词、标点符号、不太常见的单词、停用词、数字。我尝试通过减少和增加主题的数量来玩弄它们,但结果仍然相同。对于要调查的事情,我们将不胜感激。
我有由一列组成的文本数据。我正在尝试对这些数据进行主题建模。我试过LDA和CTM。我正在寻找主题之间的良好分离。我的结果总是显示我的大部分数据都集中在一个主要主题中,而其他主题的结果很少,这也导致了主题之间的重叠。我的预处理包括删除以下内容:最常见的单词、标点符号、不太常见的单词、停用词、数字。我尝试通过减少和增加主题的数量来玩弄它们,但结果仍然相同。对于要调查的事情,我们将不胜感激。