我正在编写一种算法来从文档文本中提取可能的关键字。我想计算单词的实例并将前 5 个作为关键字。显然,我想排除“无关紧要”的词,以免每个文档都以“the”和“and”作为主要关键字出现。
这是我成功用于测试的策略:
exclusions = new ArrayList<String>();
exclusions.add("a","and","the","or");
现在我想做一个真实的测试,我的排除列表接近 200 字长,我希望能够做这样的事情:
exclusions = new ArrayList<String>();
exclusions.add(each word in foo.txt);
从长远来看,出于显而易见的原因,需要维护一个外部列表(而不是嵌入在我的代码中的列表)。使用 Java 中的所有文件读/写方法,我相当肯定可以做到这一点,但是我的搜索结果是空的……我知道我必须搜索错误的关键字。有人知道在处理中包含外部列表的优雅方式吗?