python - 什么数据科学编程算法类似于用于连续变量的朴素贝叶斯？

Question

我正在尝试构建和训练一种机器学习数据科学算法，该算法可以正确预测总统在哪个县赢得了什么。我有以下有关训练数据的信息。

总人口年龄中位数 % 学士及以上学历失业率人均收入家庭总数平均家庭规模 % 自住住房 % 租房者自住住房 % 空置住房房价中位数人口增长房屋持有增长人均收入增长获胜者

我是数据科学的新手。我确实知道朴素贝叶斯是一个很好的分类器，用于尝试使用多个属性进行预测的算法。但是，我阅读了朴素贝叶斯分类器的第一步需要频率表。我的问题是上述所有属性都是连续的数值属性，不属于“是”或“否”类别。那我不使用朴素贝叶斯分类器吗？

我也考虑过使用 ak 最近邻算法，但这看起来不是最准确的并且对我来说正确地加权属性......我正在寻找一种监督算法，因为我有训练数据。谁能给我任何关于使用什么算法的建议？此外，作为该领域的新手，我怎样才能弄清楚将来自己使用什么算法。

score 3 · Accepted Answer

文件

要创建、训练、测试和评估神经网络，您可以使用几个库：

score 1 · Accepted Answer

对于朴素贝叶斯，您可以离散化您的连续数值属性。

例如，对于“% Owner占用房屋”，您将所有 100% 比例分成十个分区（0-10%、10-20%、...、90-100%）并获取频率表。

对于某些属性，您可以使用二进制值：失业率 < 30% - 是/否。

祝你学习机器学习好运:)