1

斯坦福主题建模工具包(Stanford Topic Modeling Toolkit)在 19,500 篇文章(由 Twitter 用户共享)的语料库中确定的 30 个主题(耗时约 4 小时)彼此如此相似的可能原因是什么?他们有几乎相同的术语,频率=>本质上,我只有一个主题:)

确定的主题可以在这里找到

我在学习和推断阶段之前对文本文档进行标准准备:删除停用词、折叠空格、小写所有内容等。

我的一些参数:

  • 主题数 = 30
  • TermMinimumDocumentCountFilter = (10) ~> // 过滤出现在 < 10 个文档中的术语
  • TermDynamicStopListFilter(30) ~> // 过滤掉 30 个最常用的术语
  • DocumentMinimumLengthFilter(10) // 只接受 >= 10 个词条的文档
  • topicSmoothing = SymmetricDirichletParams(0.01)
  • termSmoothing = SymmetricDirichletParams(0.01)
  • 最大迭代次数 = 10
4

1 回答 1

1

我会说因为你的方法似乎有缺陷。原始字数具有固有的偏见,这是语言的特征,尽管要挖掘什么主题。

例如,对主题相似度没有影响但会使您的结果产生偏差的单词:

very
well
good

而在处理对其他细节的引用时故意模糊的其他词

data
media
web
users
those

而其他词只是常用的动词或副词

need
going
think
know
want

其他是知名的行业品牌名称

apple
twitter

在您可以构建一个词频映射到特定主题的可验证模型之前,您所做的只是一些数据收集,一些挥手(而不是反假设反驳),并跳到您的原始前提是正确的结论。

重构你的分类来捕捉主题而不是单词,然后建立一个模型来描述主题之间的距离,然后尝试表明在提供的 30 个主题中,实际上只有 29 个(或更少)“距离”足够大的主题独自站立。

因为,从用户那里收集数据非常好,但是对数据的需求仅次于对能够知道想要什么的好数据的需求。(那句话是有意构建的,它有很高的 Standford Topic Modeling Toolkit “字数”,但可能不是一个相似的主题

于 2012-04-18T15:57:44.560 回答