(到目前为止,这在本质上是相当假设的,所以我没有太多细节可以提供。)
我有一个随机(英文)单词的平面文件,每行一个。我需要编写一个高效的程序来计算每个单词的出现次数。该文件很大(可能大约 1GB),但我有足够的 RAM 来存放所有内容。它们存储在永久媒体上,因此读取速度很慢,所以我只需要线性读取一次。
我的两个不经意间的想法是使用带有单词的哈希 => 否。发生次数,或尝试与否。在结束节点发生的次数。我有足够的 RAM 用于哈希数组,但我认为 trie 的查找速度会一样快或更快。
什么方法最好?