我有一组非正式文档(数千个),我想在这些文档上应用主题建模(MALLET)。问题是,文档中有大量拼写错误的单词。大多数是有意的,例如短格式和本地术语,例如 ''juz' -> 'just'、'alr' -> 'already'。由于不同作者独特的写作风格,存在一些这样的变化。
在将它们喂给 MALLET 之后,我有点担心生成的一个主题实际上是一组拼写错误的停用词。我相信这些词主要用于同一作者的一小部分文档中,因此 MALLET 选择了它。
我的问题是,在对它们执行进一步任务之前,我是否对这些拼写错误的单词集进行拼写检查和更正,或者将更正的文本保存在某处?我想这意味着我确实需要在提交之前手动验证更正吗?什么是最“有效”的方式来做到这一点?
还是我实际上忽略了这些拼写错误的单词?