我正在做一个需要创建垃圾邮件数据库并接受用户提交的项目。接受提交很容易,但我试图弄清楚如何衡量这些提交。
假设数据库由单词组成,我收到以下提交:* 137x “banana” * 22x “apple” * 1x “exploding mouse”
现在,“香蕉”很有可能是一个垃圾邮件词。“Apple”可能是,但可能应该被列入灰名单,而“爆炸鼠标”可能只是一个恶作剧。
有人有什么好主意吗?
干杯!
我正在做一个需要创建垃圾邮件数据库并接受用户提交的项目。接受提交很容易,但我试图弄清楚如何衡量这些提交。
假设数据库由单词组成,我收到以下提交:* 137x “banana” * 22x “apple” * 1x “exploding mouse”
现在,“香蕉”很有可能是一个垃圾邮件词。“Apple”可能是,但可能应该被列入灰名单,而“爆炸鼠标”可能只是一个恶作剧。
有人有什么好主意吗?
干杯!