我目前正在从事一个项目,在该项目中我将使用朴素贝叶斯分类方法将电子邮件分类为垃圾邮件或干净邮件。为此,我正在使用 WEKA 和著名的 SpamAssassin 数据集。(数据集可以在这里找到:http ://www.csmining.org/index.php/spam-assassin-datasets.html )。
我对 WEKA 的经验很少,但有人告诉我在预处理数据时使用 stringtowordvector 过滤器。我很困惑如何做到这一点。有人使用过 SpamAssassin 数据和 WEKA 吗?有没有人有任何有用的链接来协助预处理?