在过去三年左右的时间里,我每天都在使用 R,而日常使用的大部分时间都花在了机器学习/数据挖掘问题上。
我在大学期间是 Matlab 的独家用户;当时我认为这是一套出色的工具/平台。我相信今天也是如此。
神经网络工具箱、优化工具箱、统计工具箱和曲线拟合工具箱对于使用 MATLAB 进行 ML/数据挖掘工作的人来说都是非常理想的(如果不是必需的),但它们都与基本的 MATLAB 环境分开——在其他换句话说,它们必须单独购买。
我在 R 中学习 ML/数据挖掘的前 5 名列表:
这指的是几件事:首先,一组都以arules开头的 R 包(可从 CRAN 获得);您可以在项目主页上找到完整列表(arules、aruleesViz 等)。其次,所有这些软件包都基于一种数据挖掘技术,即基于市场的分析或关联规则。在许多方面,这一系列算法是数据挖掘的精髓——彻底遍历大型事务数据库,并在这些数据库中的字段(变量或特征)之间找到高于平均水平的关联或相关性。在实践中,您将它们连接到数据源并让它们在一夜之间运行。上述集合中的中心 R 包称为arules; 在arules的 CRAN 包页面上,您将找到一些关于 arules 包和一般关联规则技术的优秀二级资源(R 词典中的小插图)的链接。
本书的最新版本以数字形式免费提供. 同样,在本书的网站上(链接到上面的链接)是 ESL 中使用的所有数据集,可免费下载。(顺便说一句,我有免费的数字版;我还从 BN.com 购买了精装版;数字版中的所有颜色图都在精装版中复制。) ESL 包含对至少一个示例的详尽介绍大多数主要的 ML 规则——例如,神经网络、SVM、KNN;无监督技术(LDA、PCA、MDS、SOM、聚类)、多种回归、CART、贝叶斯技术,以及模型聚合技术(Boosting、Bagging)和模型调整(正则化)。最后,从 CRAN 获取本书随附的 R 包(这将省去必须下载输入数据集的麻烦)。
可用于 R 的 +3,500 个包按域分为大约 30 个包系列或“任务视图”。机器学习就是这些家族之一。机器学习任务视图包含大约 50 个左右的包。其中一些包是核心发行版的一部分,包括 e1071(一个庞大的 ML 包,其中包含许多常见 ML 类别的工作代码。)
特别关注带有预测分析标签的帖子
对代码的深入研究本身就是对 R 中机器学习的极好介绍。
最后一个资源我认为非常好,但没有进入前 5 名:
张贴在博客上美丽的万维网