我想就能够存储和查询词频计数的良好设计获得社区共识。我正在构建一个应用程序,我必须在其中解析文本输入并存储一个单词出现的次数(随着时间的推移)。所以给定以下输入:
- 《杀死一只知更鸟》
- “嘲笑钢琴演奏者”
将存储以下值:
Word Count
-------------
To 1
Kill 1
A 2
Mocking 2
Bird 1
Piano 1
Player 1
并且以后能够快速查询给定任意词的计数值。
我目前的计划是简单地将单词和计数存储在数据库中,并依赖缓存单词计数值......但我怀疑我不会获得足够的缓存命中来使其成为长期可行的解决方案。
任何人都可以提出算法、数据结构或任何其他可能使其成为性能良好的解决方案的想法吗?