当我需要能够预测 Kickstarter 项目资金的成功机会时,我正在从事数据挖掘项目。
我使用了在 Kaggle 上找到的 kickstarter 数据集,我已经清理了所有嘈杂的数据,删除了不相关的属性并添加了另一个有用的属性。
现在我有大约 320K 实例和 6 个属性。
运行 J48 算法后,我得到了 65.07% 的正确分类实例和 68.7% 的平均 roc 区域。我必须提高这种性能,但我不知道如何。
这是一个大学项目,所以我有特定的规则:我只能更改算法的 Confidence Factor 和 NumMinObj。我花了很多时间尝试每种组合。