我正在使用神经网络构建垃圾邮件检测系统。我无法理解如何继续我目前的工作。
我有 - 未读邮件被标记为已读并使用 tf-idf 加权转换为邮件向量。所以基本上,我的电子邮件看起来像
Email : (Word1,Score1),(Word2,Score2)...
完成后(解析、词干提取、停用词删除和 tf-idf 转换)。我已经阅读了通过反向传播训练的反馈网络,这似乎是最常用的方法。基本上,我如何进一步减少我拥有的向量的维数以及如何将其作为输入提供。此外,隐藏层的行为如何以及隐藏层神经元的数量如何影响神经网络的性能。另外,特征向量与我所拥有的有何不同?如何形成特征向量?
谢谢。期待一些清晰。