c - 如何使用哈希表在句子列表中查找最常用的短语

Question

所有句子都是小写英文，没有标点符号，一个短语被定义为 3 个连续的单词，所以如果一个句子是：我是杰西卡亨特

所以短语将是“我是杰西卡”和“我是杰西卡亨特”

一个短语是常见的，如果它出现在文件的所有句子中

请帮助我为这个问题提供适当的哈希函数

score 1 · Accepted Answer

什么都行。我将从 (3*a + 5*b + 7*c) 开始，其中 {a,b,c} 是三个连续单词的字数（或哈希值）。（当然所有无符号和模字大小）

score 0 · Accepted Answer

杰西卡，我猜你需要一个 n-gram 散列器而不是一个句子（几乎相同）。我用 C 编写了一个超快的 n-gram ripper，可在以下位置免费下载： http: //www.sanmayce.com/Downloads/index.html#Leprechaun

妖精会将“句子”“我是杰西卡狩猎”撕成这两个 3 克：i_am_jessica am_jessica_hunt

也许 n 语法也是你的事。

2 回答 2