我有一个包含几千行的 MySQL 数据库表。该表设置如下:
id | text
该id
列是一个自动递增的整数,并且该text
列是一个 200 个字符的 varchar。
假设我有以下行:
3 | I think I'll have duck tonight
4 | Maybe the chicken will be alright
5 | I have a pet duck now, awesome!
6 | I love duck
那么我想要生成的列表可能是这样的:
- “鸭子”出现 3 次
- “我”出现 3 次
- 出现 2 次“有”
- “鸡”出现 1 次
- 等
另外,我可能想要维护一个从列表中忽略的子字符串列表,例如'I'、'will'和'have。重要的是要注意,我不知道人们会发布什么。
我没有要监视的单词列表,我只想找到最常见的子字符串。然后,我将通过编辑查询手动从列表中过滤掉任何不感兴趣的错误子字符串。
谁能建议最好的方法来做到这一点?谢谢大家!