7

首先,感谢您阅读这篇文章。

在机器学习方面我是个菜鸟,我正在尝试使用 ML 对一些数据进行分类。现在我已经对有监督和无监督学习算法进行了一些基本的阅读,例如决策树、聚类、神经网络等。

我正在努力理解的是为 ML 问题准备数据集的正确整体过程。

如何为 ML 准备数据集,以便衡量算法的准确性?

我目前的理解是,为了评估准确性,应该为算法提供预先标记的结果(来自数据集的重要子集?),以便评估预期结果与算法决策之间的差异?

如果这是正确的,那么如何对大型数据集进行预标记?我的数据集很大,手动标记是不可行的。

此外,非常感谢任何有关在 Python 中进行机器学习的技巧!

非常感谢您提前提供的帮助!

此致,

麦克风

4

1 回答 1

4

这是任何机器学习算法中最重要的部分。您需要构建数据集、提取、制作、缩放、规范化特征。

如果你想使用一些监督学习算法,你需要标记数据。有几种方法可以实现这一点:

  1. 用手把它弄脏。
  2. 使用一些无监督学习算法来标记数据。

您需要使用一些 python 机器学习工具包,例如 - scikit-learn。scikit-learn 包含许多用于数据处理、特征提取和预处理的有用工具。例如,它可以使用 DictVictorizer 对您的数据进行矢量化。您可以仅使用 scikit-learn 添加缺失值、缩放和规范化特征。

我建议从这里的例子开始 - http://scikit-learn.org/stable/

于 2013-10-14T13:53:10.720 回答