Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有大量已经计算过 TF-IDF 的文档。我正准备向集合中添加更多文档,我想知道是否有一种方法可以在不重新处理整个数据库的情况下将 TF-IDF 分数添加到新文档中?
基本上有两种选择:
仅在需要时计算您的 tf-idf 分数。添加新文档现在很简单。您所要做的就是更新所有文档的数量、出现标记的文档的数量并存储新文档的标记出现向量。
定期重新计算您的 tf-idf 向量,可能是在添加 100K 文档或类似的东西之后。在这两者之间,只需使用旧值(所有文档的数量,令牌出现的文档数量)。
如果您的集合真的很大,您可能会希望采用第二种方法,因为新文档无论如何都不会改变单词的全局分布。也就是说,最好测试这两种方法并选择最适合您问题的方法。