我正在用 Java 实现朴素贝叶斯文本分类算法。
到目前为止我所做的是,声明一个名为 Vocabulary 的哈希集,它存储来自给定文本文件(测试文件)的所有唯一单词。
该算法的步骤之一是将测试文件的所有成员连接到一个文本文件中。结果证明这是一个相当大的文件,其中包含每个文件中的单词。
现在,我必须用连接的文本文件计算词汇表中每个单词的出现次数。我的第一个猜测是保留一种包含每个单词频率的数组结构。但是话又说回来,我的条目太多了。
谁能给我更好的建议?
我正在用 Java 实现朴素贝叶斯文本分类算法。
到目前为止我所做的是,声明一个名为 Vocabulary 的哈希集,它存储来自给定文本文件(测试文件)的所有唯一单词。
该算法的步骤之一是将测试文件的所有成员连接到一个文本文件中。结果证明这是一个相当大的文件,其中包含每个文件中的单词。
现在,我必须用连接的文本文件计算词汇表中每个单词的出现次数。我的第一个猜测是保留一种包含每个单词频率的数组结构。但是话又说回来,我的条目太多了。
谁能给我更好的建议?