0

我正在做一个需要创建垃圾邮件数据库并接受用户提交的项目。接受提交很容易,但我试图弄清楚如何衡量这些提交。

假设数据库由单词组成,我收到以下提交:* 137x “banana” * 22x “apple” * 1x “exploding mouse”

现在,“香蕉”很有可能是一个垃圾邮件词。“Apple”可能是,但可能应该被列入灰名单,而“爆炸鼠标”可能只是一个恶作剧。

有人有什么好主意吗?

干杯!

4

1 回答 1

0

标准方法是“贝叶斯”,您将垃圾邮件中的词频与非垃圾邮件(又名“ham”)中的词频进行比较。这样做的问题是,虽然人们非常愿意将所有垃圾邮件转发给您,但他们不太可能希望将他们的火腿转发给您。

一个已经这样做的程序被称为“bogofilter”。它有一个标准的 Debian 软件包。

于 2010-08-25T12:49:09.720 回答