我尝试使用概率方法实现反垃圾邮件引擎。第一步是分析和研究垃圾邮件中单词的类型及其频率。所以我用Java写了一个非常简单的程序来过滤垃圾邮件中的单词。我使用 "split("\W")" (\W 表示空格)将整个文本文件分成几行和几行。
我下载了垃圾邮件档案,并认为我可以使用此应用程序轻松分析或扫描这些 txt 文件。但是很快,我就遇到了一个大问题!文本文件包含 HTML 标签、链接、电子邮件标题、等等等等……
现在我想知道如何解决这个问题?我应该使用 html 解析器还是加强分析这些文件的逻辑?
答案主要看我在实施阶段会不会遇到同样的问题?当前的垃圾邮件过滤器有什么作用?