0

我正在用 Java 实现朴素贝叶斯文本分类算法。

到目前为止我所做的是,声明一个名为 Vocabulary 的哈希集,它存储来自给定文本文件(测试文件)的所有唯一单词。

该算法的步骤之一是将测试文件的所有成员连接到一个文本文件中。结果证明这是一个相当大的文件,其中包含每个文件中的单词。

现在,我必须用连接的文本文件计算词汇表中每个单词的出现次数。我的第一个猜测是保留一种包含每个单词频率的数组结构。但是话又说回来,我的条目太多了。

谁能给我更好的建议?

4

2 回答 2

4

使用字典(HashMap),其中单词是键,值是出现次数。如果 HashSet 适合内存,则 HashMap 也应该如此。

于 2012-06-03T09:11:04.357 回答
0

您可以尝试使用 Tries,叶子节点可以存储单词的频率。

于 2012-06-03T09:15:13.013 回答