我正在为 android 开发垃圾邮件检测应用程序,我正在使用贝叶斯分类来检测垃圾邮件。我想知道的是,我应该使用包含 50 条火腿消息和 50 条垃圾消息的训练集,还是应该进行基于用户的内容训练?它将对应用程序的有效性产生什么影响?我知道这可能是一个广泛的讨论,但我想要一个准确的答案,而不是这里的讨论。
问问题
591 次
1 回答
1
看起来您需要数千条培训消息。
请注意,垃圾邮件发送者已经找到了通过这种过滤器的方法,例如“v1agra”之类的拼写错误。对分类器的迭代改进可能会赶上他们当前的技术。
Bayesian_spam_filtering看起来是一个很好的起点,尤其是。它对深入文章的引用。
于 2014-03-06T08:19:33.243 回答