我一直在尝试不同的方法来进行模式匹配、分析和预测时间序列数据。
由于我没有数据挖掘或相关领域的专业经验,我从头开始想出了自己的方法。
在零星浏览了几个月的数据挖掘文章(我理解的少数文章)之后,我意识到我的方法非常基础。
例如,我实现模式匹配的方式是通过多维 k-Nearest Neighbor 方法。
我现在才刚刚开始了解应该使用一些常用技术,例如决策树、主成分分析、协方差矩阵等。
我一直在试验 RapidMiner,这是一个 GUI 数据挖掘工具。RapidMiner 允许您拖放各种复杂技术的实现并将它们连接在一起,而无需编写一行代码。这对我来说是一个很棒的学习工具。它看起来像这样:
RapidMiner 有一个 API,但不幸的是它是用 Java 编写的,而我目前所有的代码都是用 Free Pascal 和 MySQL 编写的。
我正在寻找某种方法将 RapidMiner 集成到我的应用程序中,这样我就可以通过 RapidMiner GUI 尝试不同的数据处理方法,并将它们与我当前的代码无缝地结合使用。
如果这不可行,我会选择另一个数据挖掘包,只要它很容易集成到我当前的 Free Pascal 代码中。
我研究了 R - 这似乎是正确的,但与 Free Pascal 集成似乎也不容易。
为清楚起见,我的数据集相当大(超过 500,000 行),计算必须实时进行。该软件在 Windows 7 上运行。