最近我开始了电子商务项目,我需要使用数据挖掘。只是我的问题是我可以在开发中使用哪种解决方案:
- MySQL 与 PHP
- 带有 ASP 的 SQL Server
实际上 MySQL 是一个很好的解决方案,适合我的项目有很多原因,但它是否适合数据挖掘?我是数据挖掘的初学者,我将把它作为我项目的一部分进行开发。有没有好的支持工具呢?
最近我开始了电子商务项目,我需要使用数据挖掘。只是我的问题是我可以在开发中使用哪种解决方案:
实际上 MySQL 是一个很好的解决方案,适合我的项目有很多原因,但它是否适合数据挖掘?我是数据挖掘的初学者,我将把它作为我项目的一部分进行开发。有没有好的支持工具呢?
SQL 数据库在数据挖掘中的作用很小。(也就是说,除非您考虑将涉及平均值的各种业务报告计算为“数据挖掘”,恕我直言,这些最多应称为“业务分析”)。
原因是数据库索引无法加速为数据挖掘执行的高级统计。通常,它们花费的时间也比交互式用户愿意等待的时间长得多。
所以最后,大多数实际的数据挖掘都是在数据库之外“离线”进行的。数据库可以作为初始数据存储,但实际的数据挖掘过程通常是1.从数据库加载数据,2.预处理数据,3.分析数据,4.呈现结果。
我知道存在一些 SQL 扩展,例如 DMX(“数据挖掘扩展”)。但说真的,这并不是真正的数据挖掘。这是一个调用一些基本预测功能的接口,但不是通用的。任何好的数据挖掘都需要对流程进行定制,而您不能使用 DMX 单线来做到这一点。
事实上,数据挖掘最重要的工具是 R 和 SciPy。其次是RapidMiner、Weka和ELKI等专业工具。为什么?因为 R 和 Python最适合编写脚本。这完全是关于流程的定制。忘记任何按钮解决方案,它们只是还不能很好地工作。
您只是无法合理地训练例如支持向量机“内部”的 SQL 数据库(甚至更少,在 NoSQL 数据库内部,通常不超过键值存储)。也不要低估预处理数据的需要。所以实际上,您将在数据集的副本上进行训练。然后,您可能会将此副本转换为对您以后的实际数据挖掘过程最有效的数据格式;而不是将其保存在随机访问的通用数据库存储中。
我会说选择你和你的团队感觉更舒服的语言,双方都有好货,但我认为你在选择一条路径之前先做一些研究,牢记你的业务需求。