16

大家。我对分类算法这个话题完全陌生,需要一些关于从哪里开始“认真阅读”的好建议。我现在正在寻找机器学习和自动分类算法是否值得添加到我的一些应用程序中。

我已经浏览了 Z. Michalewicz 和 D. Fogel 的“How to Solve It: Modern heuristics”(特别是关于使用神经网络的线性分类器的章节),并且在实际方面,我目前正在浏览WEKA 工具包源代码。我的下一个(计划中的)步骤将是深入贝叶斯分类算法领域。

不幸的是,我在这个领域缺乏一个严肃的理论基础(更不用说,到目前为止已经以任何方式使用过它),所以任何关于下一步看哪里的提示都将不胜感激;特别是,很好地介绍可用的分类算法会很有帮助。多做工匠少做理论家,越实用越好……

提示,有人吗?

4

3 回答 3

9

我一直觉得Andrew Moore 的教程非常有用。它们以扎实的统计理论为基础,如果您将来选择阅读它们,它们对于理解论文将非常有用。这是一个简短的描述:

其中包括分类算法,例如决策树、神经网络、贝叶斯分类器、支持向量机和基于案例的(也称为非参数)学习。它们包括回归算法,例如多元多项式回归、MARS、局部加权回归、GMDH 和神经网络。它们包括其他数据挖掘操​​作,例如聚类(混合模型、k-means 和分层)、贝叶斯网络和强化学习

于 2010-05-01T13:45:24.247 回答
6

参考 Andrew Moore 的教程的答案是一个很好的答案。然而,我想通过建议对驱动创建许多分类系统的需求进行一些阅读来增强它:因果关系的识别。这与许多涉及统计推断的建模问题有关。

我所知道的用于学习因果关系和分类器系统(尤其是贝叶斯分类器)的最佳资源是Judea Pearl 的书“因果关系:模型、推理和推理”

于 2010-06-06T00:08:23.877 回答
4

机器学习概述

要全面了解该领域,请观看Andrew Ng 机器学习课程的视频讲座。

本课程 (CS229) - 由 Andrew Ng 教授教授 - 广泛介绍了机器学习和统计模式识别。主题包括监督学习、无监督学习、学习理论、强化学习和自适应控制。还讨论了机器学习的最新应用,例如机器人控制、数据挖掘、自主导航、生物信息学、语音识别以及文本和 Web 数据处理。

分类器

至于您应该使用哪个分类器,我建议首先从支持向量机 (SVM)开始进行一般应用分类任务。它们将为您提供最先进的性能,并且您不需要了解它们背​​后的所有理论,只需使用像 WEKA 这样的包提供的实现。

如果您有更大的数据集,您可能想尝试使用Random Forests。WEKA 中也有这种算法的实现,它们在大数据上的训练速度要快得多。虽然它们的使用不如 SVM 广泛,但它们的准确性往往与您可以从其中获得的准确性相匹配或几乎匹配。

于 2010-05-01T23:03:24.127 回答