我想计算一篇文章的词频。
我的想法是首先创建一个结构数组
struct{
char[WORD_SIZE]
}data[MAX_WORD_NUMBER];
然后读取每个字符然后确定
isalpha();
然后通过转换为小写
tolower();
然后将一个单词存储到每个结构中。
然后为每个单词制作失败函数,
然后通过调用它来测试每个单词。
1.但我不知道如何计算由于重复引起的频率。
(我以为每次读插入词都可以比较一下,但是效果太差了,有没有更高效的方法?)
2.我认为我的方法调用函数的时间太多了。
如何更有效地使用 KMP?