1

我有一个短消息数据集,其中包含发件人姓名、收件人、长度在一个单词到 20 个单词之间的短消息,以及指定的垃圾邮件/非垃圾邮件类别。我想根据这些历史数据建立一套关联规则。我在考虑 Apriori 算法,但我不知道如何离散化短消息以便在数据集上运行算法。目标是提取导致垃圾邮件/非垃圾邮件分类的规则

4

1 回答 1

1

Naive Bayes / SVM 更适合这种分类。只需将每个单词视为一个特征。

于 2012-10-20T13:01:49.280 回答