我正在尝试构建一个应用程序来检测来自网页的广告图像。一旦我检测到这些,我将不允许它们显示在客户端。
根据我在Stackoverflow question上获得的帮助,我认为 SVM 是实现我目标的最佳方法。
因此,我自己编写了 SVM 和 SMO。我从 UCI 数据存储库获得的数据集有 3280 个实例(链接到数据集),其中大约 400 个来自代表广告图像的类,其余代表非广告图像。
现在我正在获取前 2800 个输入集并训练 SVM。但在查看准确率后,我意识到这 2800 个输入集中的大多数来自非广告图像类。因此,我在该课程中获得了非常好的准确性。
那么我可以在这里做什么?我应该给 SVM 多少个输入集来训练,每个类有多少个输入集?
谢谢。干杯。(基本上提出了一个新问题,因为上下文与我之前的问题不同。神经网络输入数据的优化)
谢谢回复。我想检查我是否正确导出了广告和非广告类的 C 值。请给我反馈。
或者你可以在这里查看文档版本。
你可以在这里看到 y1 eqaul 到 y2 的图表
并且 y1 不等于 y2 这里