斯坦福主题建模工具包(Stanford Topic Modeling Toolkit)在 19,500 篇文章(由 Twitter 用户共享)的语料库中确定的 30 个主题(耗时约 4 小时)彼此如此相似的可能原因是什么?他们有几乎相同的术语,频率=>本质上,我只有一个主题:)
确定的主题可以在这里找到
我在学习和推断阶段之前对文本文档进行标准准备:删除停用词、折叠空格、小写所有内容等。
我的一些参数:
- 主题数 = 30
- TermMinimumDocumentCountFilter = (10) ~> // 过滤出现在 < 10 个文档中的术语
- TermDynamicStopListFilter(30) ~> // 过滤掉 30 个最常用的术语
- DocumentMinimumLengthFilter(10) // 只接受 >= 10 个词条的文档
- topicSmoothing = SymmetricDirichletParams(0.01)
- termSmoothing = SymmetricDirichletParams(0.01)
- 最大迭代次数 = 10