1

我有一组非正式文档(数千个),我想在这些文档上应用主题建模(MALLET)。问题是,文档中有大量拼写错误的单词。大多数是有意的,例如短格式和本地术语,例如 ''juz' -> 'just'、'alr' -> 'already'。由于不同作者独特的写作风格,存在一些这样的变化。

在将它们喂给 MALLET 之后,我有点担心生成的一个主题实际上是一组拼写错误的停用词。我相信这些词主要用于同一作者的一小部分文档中,因此 MALLET 选择了它。

我的问题是,在对它们执行进一步任务之前,我是否对这些拼写错误的单词集进行拼写检查和更正,或者将更正的文本保存在某处?我想这意味着我确实需要在提交之前手动验证更正吗?什么是最“有效”的方式来做到这一点?

还是我实际上忽略了这些拼写错误的单词?

4

2 回答 2

0

如果不知道拼写错误的单词或错误拼写的单词对主题建模结果的影响,我认为我们无法回答这个问题。因此,如果您能提供更多信息,那就太好了。

但是,我原以为您想更正它们,至少在更正显然是原作者意图的地方。

于 2010-11-25T11:31:40.697 回答
0

你现在如何处理停用词?如果您正在进行主题建模,那么将它们过滤掉是有意义的。如果是这样,你为什么不过滤掉这些术语呢?

[根据回复编辑]

有一些关于以更原则的方式处理 LDA 中的停用词的研究。脑海中浮现出两篇论文:

  1. 潜在狄利克雷分配的期限加权方案
  2. 重新思考 LDA:为什么先验很重要。

[ 1 ] 使用术语权重方案,这显然有助于他们设置的预测任务,[ 2 ] 使用非对称先验词分布,这显然会导致一些包含所有停用词的主题,以及其他常见的词到整个语料库。

It seems to me that the best way to automatically infer stop words and other non-topic words in LDA is still a research question.

于 2010-11-25T14:34:21.590 回答