我想计算存储在 HBase 中的文档的 TF(词频)和 IDF(逆文档频率)。
我还想将计算的 TF 保存在 HBase 表中,还将计算的 IDF 保存在另一个 HBase 表中。
你能指导我通过吗?
我已经看过了BayesTfIdfDriver
,Mahout 0.4
但我没有开始。
解决方案的大纲非常简单:
TF-IDF 上的维基百科页面是记住公式细节的一个很好的参考:http ://en.wikipedia.org/wiki/Tf *idf
如果要计算 TF、IDF,则需要创建中间表“TermMatrix”,用于存储带有文档 ID 的术语。然后您可以使用 TermMatrix 表计算 TFIDF。它接近实时,但如果您想要实时 TFIDF 输出,那么我建议您也创建“TF”、“IDF”表。
我写了一篇关于如何使用 HBase 计算 TFIDF 的博客:http: //ahikmat.blogspot.kr/2014/07/building-term-matrix-on-hbase.html