我正在尝试通过利用 contagiodump 上发现的 26,000 个 PDF 样本(干净和恶意)来创建一个 ANN 将 PDF 文件分类为恶意或干净。对于每个 PDF 文件,我使用 PDFid.py 解析文件并返回 42 个数字的向量。然后将 26000 个向量传递到 pybrain;50% 用于训练,50% 用于测试。这是我的源代码:
https://gist.github.com/sirpoot/6805938
在对尺寸和其他参数进行大量调整后,我设法获得了大约 0.90% 的误报率。这是我的输出:
https://gist.github.com/sirpoot/6805948
我的问题是,我有什么明确的方法可以进一步降低误报率吗?我该怎么做才能将利率降低到 0.05%?