您好我想知道如何实现此类任务的解决方案:
有一个 500Mb 的纯英文文本文件。
我想收集有关单词频率的统计数据,但另外要确保正确识别每个单词(或大多数单词)。
用“她大声哭泣”句子中的“哭泣”而言,将被归类为名词,而“不要哭泣”将给统计数据提供动词。
此外,最好过滤专有名称,以便它们形成另一个字典。
另一个任务会更困难。我想找到经常出现的单词并建立此类出现的列表。
比方说,“绿草”、“美女”、“小心处理”、“你说得对”。这样我们就可以准确地说出语言中经常一起使用的词序列。
我将如何开始?是否有关于该主题的开放 Java 工具和好书?