Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我正在研究主题建模,其中给定的文本语料库在删除停用词后以支持词的形式存在大量噪音。这些词具有较高的词频,但通过使用 LDA 以及其他有用的高频词无助于形成主题词。如何消除这种噪音?
基本的事情是你做一个 TF-IDF 并清理分数,如果这仍然没有帮助,那么你可以创建特定于域的自定义停用词列表。假设如果我在工作域中,“工作”一词不是常规停用词,但在工作域中它是或公司名称是停用词,因为它在许多文档中重复。因此,构建自定义停用词列表是另一种方法。
LDA 算法在输入中不采用 tf-idf 权重,而是采用词袋,但是您可以首先根据 tf-idf 分数从语料库中过滤词,然后将新文本提供给您的 LDA 程序。