0

当我需要能够预测 Kickstarter 项目资金的成功机会时,我正在从事数据挖掘项目。

我使用了在 Kaggle 上找到的 kickstarter 数据集,我已经清理了所有嘈杂的数据,删除了不相关的属性并添加了另一个有用的属性。

现在我有大约 320K 实例和 6 个属性。

运行 J48 算法后,我得到了 65.07% 的正确分类实例和 68.7% 的平均 roc 区域。我必须提高这种性能,但我不知道如何。

这是一个大学项目,所以我有特定的规则:我只能更改算法的 Confidence Factor 和 NumMinObj。我花了很多时间尝试每种组合。

我还能做什么?也许我的数据集中的某些东西有问题?在此处输入图像描述

4

1 回答 1

0

您有很多实例,但属性很少。如果您不能添加更多属性,那么您可能已经获得了J48树的最佳结果,并且特征选择是无用的。您可能必须使用更复杂的分类算法,例如RandomForest.

于 2020-01-22T16:25:38.577 回答