我正在研究文档聚类问题,为此我需要获取文档数据集的词频。
目前,我正在使用一种简单的方法:我创建一个单词表,并添加与数据集包含的文档数量一样多的列,获得类似
word | document1 | document2 | ... | document n |
这种方法,即使有点慢,也适用于小型数据集(包含少于 100 个文档)。问题是现在我必须处理巨大的文件,每个文件包含 700 多个文件,我觉得必须有更聪明的方法来处理它:问题是,我想不出其他任何东西。
所以,问题是:如何有效地跟踪每个文档的词频?
PS:考虑到每个文档的单词数或数据集大小都是未知的,但合理的上限应该是每个文档 2000 个单词,每个数据集 2000 个文档。