我为我的一些程序提供了反馈功能。不幸的是,我忘记了包含某种垃圾邮件保护功能——因此用户可以将任何他们想要的东西发送到我的服务器——每个反馈都存储在一个巨大的数据库中。
一开始我会定期检查这些反馈——我过滤掉了可用的内容并删除了垃圾。问题是:我每天收到 900 条反馈。只有 4-5 条真正有用,其他消息大多是 2 种胡言乱语:
- 废话:jfvgasdjkfahs kdlfjhasdf(人们在键盘上砸脑袋)
- 我不懂的语言
到目前为止我做了什么:
我安装了一个过滤器来删除任何包含“asdf”、“qwer”等的反馈...->每天只有 700 个
我安装了一个单词过滤器来删除任何包含不良语言的内容 -> 每天 600 个(不要问 - 但那里有很多奇怪的人)
- 我过滤掉任何包含未以我的语言使用的字母的消息 -> 每天 400 条
但是每天400仍然太多了。所以我想知道是否有人以前处理过这样的问题并且知道某种算法来过滤掉无意义的消息。
任何帮助将不胜感激!