首先,感谢您阅读这篇文章。
在机器学习方面我是个菜鸟,我正在尝试使用 ML 对一些数据进行分类。现在我已经对有监督和无监督学习算法进行了一些基本的阅读,例如决策树、聚类、神经网络等。
我正在努力理解的是为 ML 问题准备数据集的正确整体过程。
如何为 ML 准备数据集,以便衡量算法的准确性?
我目前的理解是,为了评估准确性,应该为算法提供预先标记的结果(来自数据集的重要子集?),以便评估预期结果与算法决策之间的差异?
如果这是正确的,那么如何对大型数据集进行预标记?我的数据集很大,手动标记是不可行的。
此外,非常感谢任何有关在 Python 中进行机器学习的技巧!
非常感谢您提前提供的帮助!
此致,
麦克风