java - Hashmap 单键持有一个类。计算密钥并检索计数器

Question

我正在做一个数据库自我项目。我有一个输入文件来自：http: //ir.dcs.gla.ac.uk/resources/test_collections/cran/

在处理成 1400 个单独的文件后，每个文件命名为00001.txt ,... 01400.txt ...) 并在对它们应用Stemming之后，我会将它们分别存储在一个特定的文件夹中，我们称之为StemmedFolder，格式如下：

在StemmedFolder: 00001.txt 中包括：

investig
aerodynam
wing
slipstream
brenckman
experiment
investig
aerodynam
wing

在StemmedFolder: 00756.txt 包括：

remark
eddi
viscos
compress
mix
flow
lu
ting

等等....

我编写了以下代码：

获取StemmedFolder，计算唯一词
按字母顺序排序
添加文档的ID
将每个保存到一个新文件 00001.txt 到 01400.txt，如下所述

{我可以为这 4 个部分提供我的代码，以防有人需要查看实施或更改或任何编辑的情况}

每个文件的输出将结果到一个单独的文件。（1400，每个命名为00001.txt，00002.txt ...）在特定文件夹中，我们可以使用以下格式将其称为FrequenceyFolder ：

在FrequenceyFolder: 00001.txt 中包括：

00001,aerodynam,2
00001,agre,3
00001,angl,1
00001,attack,7
00001,basi,4
....

在FrequenceyFolder: 00999.txt 中包括：

00999,aerodynam,5
00999,evalu,1
00999,lift,3
00999,ratio,2
00999,result,9
....

在FrequenceyFolder: 01400.txt 包括：

01400,subtract,1
01400,support,1
01400,theoret,1
01400,theori,1
01400,.....

______________

现在我的问题：

我需要再次组合这 1400 个文件以输出一个看起来像这种格式的 txt 文件，并进行一些计算：

'aerodynam' totalFrequency=3docs: [[Doc_00001,5],[Doc_01344,4],[Doc_00123,3]]
'book' totalFrequncy=2docs: [[Doc_00562,6],[Doc_01111,1]
....
....
'result' totalFrequency=1doc: [[Doc_00010,5]]
....
....

'zzzz' totalFrequency=1doc: [[Doc_01235,1]]

感谢您花时间阅读这篇长文

score 1 · Accepted Answer

您可以使用Map.List

Map<String,List<FileInformation>> statistics = new HashMap<>()

在上面的映射中，键是单词，值是List<FileInformation>描述包含单词的单个文件的统计信息的对象。该类FileInformation可以声明如下：

class FileInformation {
    int occurrenceCount;
    String fileName;

    //getters and setters
}

要填充上述地图，请使用以下步骤：

读取每个文件FrequencyFolder
当你第一次遇到一个词时，把它作为一个键放在Map.
创建一个FileInformation对象并将设置为occurrenceCount找到的出现次数并将设置fileName为找到它的文件的名称。将此对象添加List<FileInformation>到与步骤 2 中创建的键对应的位置。
下次您在另一个文件中遇到相同的单词时，创建一个新FileInfomation对象并将其添加到List<FileInformation>对应于该单词的映射中的条目。

完成Map填充后，打印统计数据应该是小菜一碟。

for(String word : statistics.keySet()) {
  List<FileInformation> fileInfos = statistics.get(word);
  for(FileInformation fileInfo : fileInfos) {
      //sum up the occureneceCount for the word to get the total frequency
  }
}

java - Hashmap 单键持有一个类。计算密钥并检索计数器

1 回答 1

Related

Reference