所以我读了一篇论文,说正确处理你的数据集可以显着提高 LibSVM 分类的准确性……我正在使用 Weka 实现,希望得到一些帮助,以确保我的数据集是最优的。
这是我的(示例)属性:
Power Numeric (real numbers, range is from 0 to 1.5132, 9000+ unique values)
Voltage Numeric (similar to Power)
Light Numeric (0 and 1 are the only 2 possible values)
Day Numeric (1 through 20 are the possible values, equal number of each value)
Range Nominal {1,2,3,4,5} <----these are the classes
我的问题是:我应该应用哪些 Weka 预处理过滤器来使这个数据集对 LibSVM 更有效?
- 我应该标准化和/或标准化功率和电压数据值吗?
- 我应该对任何东西使用离散化过滤器吗?
- 我应该将功率/电压值分箱到数量更少的箱中吗?
- 我应该将 Light 值设为二进制而不是数字吗?
- 我应该标准化 Day 值吗?这样做有意义吗?
- 我应该使用 Nominal to Binary 或 Nominal 来过滤“范围”类的其他东西吗?
请就这些问题以及您认为我可能错过的任何其他问题提出建议...
提前致谢!!