1

我正在尝试构建和训练一种机器学习数据科学算法,该算法可以正确预测总统在哪个县赢得了什么。我有以下有关训练数据的信息。

总人口 年龄中位数 % 学士及以上学历 失业率 人均收入 家庭总数 平均家庭规模 % 自住住房 % 租房者自住住房 % 空置住房 房价中位数 人口增长 房屋持有增长 人均收入增长 获胜者

我是数据科学的新手。我确实知道朴素贝叶斯是一个很好的分类器,用于尝试使用多个属性进行预测的算法。但是,我阅读了朴素贝叶斯分类器的第一步需要频率表。我的问题是上述所有属性都是连续的数值属性,不属于“是”或“否”类别。那我不使用朴素贝叶斯分类器吗?

我也考虑过使用 ak 最近邻算法,但这看起来不是最准确的并且对我来说正确地加权属性......我正在寻找一种监督算法,因为我有训练数据。谁能给我任何关于使用什么算法的建议?此外,作为该领域的新手,我怎样才能弄清楚将来自己使用什么算法。

4

2 回答 2

3

您可以使用人工神经网络

文件

工具/库

要创建、训练、测试和评估神经网络,您可以使用几个库:

于 2015-12-21T07:16:06.480 回答
1

对于朴素贝叶斯,您可以离散化您的连续数值属性。

例如,对于“% Owner占用房屋”,您将所有 100% 比例分成十个分区(0-10%、10-20%、...、90-100%)并获取频率表。

对于某些属性,您可以使用二进制值:失业率 < 30% - 是/否。

祝你学习机器学习好运:)

于 2015-12-21T07:58:26.980 回答