我想在java中计算多个文件/文档的词频。
例如
a1 = {aaa,aaa,aaa,bbb}
a2 = {aaa, aaa, hhh}
a3 = {aaa, hhh, bbb, bbb}
所以,我想计算每个文件的词频:
for a1 file {aaa = 3, bbb = 1}
for a2 file {aaa = 2, hhh = 1}
for a3 file {aaa = 1, hhh = 1, bbb =2}
我有一种方法可以读取单词file
,然后将其存储<wordname, worcount>
在LinkedHashMap
. 尽管如此,它会计算所有文件的特定单词的频率,但我想分别计算每个文件的单词频率。
有没有人有任何解决方案?
然后,我写了这个:
Set mapset = fileToWordCount.keySet();
for(Object filenameFromMap: mapset){
System.out.println("FILENAME::"+filenameFromMap);
}
但是,它不打印任何东西。