1

我最近对数据挖掘和机器学习领域产生了兴趣。浏览庞大的数据集并尝试关联隐藏的模式和趋势的想法令人着迷。到目前为止,我已经完成了以下工作

  • 使用 Weka 加载简单的数据集并生成决策树
  • 不断地阅读书籍、维基、博客等
  • 开始玩 SQL Server DM 和 Python API
  • 对网络上免费提供的数据集选项有一个想法(freedb、UN 等)

阻碍我的是,当我试图超越分类/关联并进入先验/先验算法时,我被卡住了,因为理解数学方程和逻辑不是(谦虚地说)我的强项之一。

所以我的问题是,在数据挖掘领域(以产品所有者或构建者的角色)有没有天生不是数学家的人?如果是这样,由于 Weka 和 Rapid-miner 等免费工具都需要一些数学/统计背景,您将如何理解该领域?

PS:如果我在查询中犯了一些错误,例如在数据挖掘和分析是分开的时候混合使用,请原谅我,因为我还在弄湿我的脚。我希望我的核心问题很清楚。

4

2 回答 2

2

好吧,能够对数据挖掘模型显示的内容进行一些分析是绝对重要的。然而,如今所有的数学和统计数据都由数据挖掘模型处理。您不需要了解它们背​​后的数学原理(尽管它会有所帮助)。

例如,您可以查看SQL Server Analysis Services 数据挖掘算法,并看到即使技术参考是如何使用这些实现,而不是如何重新创建它们。

如果你能理解业务案例并且你能理解数据挖掘告诉你什么,那么真的没有必要深入研究它背后的数学。

至于一些免费的工具,我没用过,没法跟他们说话。但是,我是 SSAS 和那些不需要广泛的数学背景的数据挖掘模型的忠实粉丝。

于 2009-08-26T12:13:01.813 回答
1

正如 Eric 所说,就您只打算使用现有算法和 API 并从中理解而言,我认为所需的数学/统计技能集没有问题(无论如何,您需要一些以前的基本知识/等级)。

现在,如果您打算进行研究,或者如果您想改进或修改现有算法,或者为什么不创建自己的算法,那么数学和统计是必须的。我刚开始在这方面做一些研究,我仍在努力填补我的技能空白 =)

于 2009-08-28T04:08:25.120 回答