在我的项目中,我们试图计算我面临两个问题的一组文档的文本相似度。
我不想重新计算我之前计算过的文档的词频。例如,我有 10 个文档,我计算了所有 10 个文档的词频和逆文档频率。然后我又得到了 2 个文件。现在我不想计算已经存在的 10 个文档的词频,而是想计算新出现的 2 个文档的 TF,然后将 TF 用于所有 12 个文档,并将 12 个文档的 IDF 计算为所有的。 如何在不重新计算现有文档的 TF 的情况下计算所有文档的 IDF?
文档的数量可能会增加,这意味着使用内存中的方法 (InMemoryBayesDatastore) 可能会变得很麻烦。我想要的是将所有文档的 TF 保存在 HBASE 表中,当新文档到达时,我计算新文档的 TF,将它们保存在 HBASE 表中,然后我使用这个 HBASE 表来获取所有文档的 TF用于计算 IDF 的文档。 如何使用 HBase 向 Mahout 的 Text Similarity 提供数据,而不是从序列文件中获取数据?