machine-learning - 机器学习平台的选择

Question

我有一个用户数据集和他们的贷款还款指标（他们花了多长时间，分期付款多少等）。现在我想分析用户过去的贷款历史并说，“如果我们借给他们 X，他们很可能会在 Z 天内分期偿还 Y”

这是我的看法

该算法是一种聚类算法，根据用户的还款习惯对所有用户进行分组
我想使用 SOM 或 K-Means

所以我的问题是，哪些平台对此有好处？到目前为止，我已经看过 Mahout。

score 2 · Accepted Answer

RapidMiner - 免费提供社区版 - 易于使用 - 漂亮的可视化

http://rapid-i.com/content/view/181/190/

score 2 · Accepted Answer

值得一看Weka - 它是一个相当成熟的开源工具包，包含许多机器学习算法，包括集群。

score 0 · Accepted Answer

关于这个主题有一本令人惊叹的书——Toby Segaran 的《Programming Collective Intelligence》。它讨论了不同的机器学习算法、聚类等。还包括指向有用库和示例代码的链接。

score 0 · Accepted Answer

0

另一个不错的库是scikits.learn，这是一个供 Python 程序员使用的机器学习库。

于 2011-02-08T08:34:38.830 回答

score 0 · Accepted Answer

为什么要聚类？它看起来不像聚类问题。您可以将聚类分析作为预处理阶段来区分几组用户（或者您可以省略此阶段），但是您需要进行某种数字预测：分期付款和天数都是数字，所以你好吗将通过聚类获得这些数字？

我建议您对这项任务使用回归。线性回归必须满足您的需求。如果因变量（分期付款数和天数）非线性地依赖于其他属性，您可以尝试多项式回归甚至像M5'这样的算法，首先构建决策树，然后将回归模型添加到该树的每个叶子。

如果您有非数字属性，您也可以尝试使用分类- 在这种情况下，您需要手动创建可能的类别（例如，分期付款：从 3 到 5，从 6 到 10 等），然后使用任何分类算法（C4.5、SVM、朴素贝叶斯等等）。

实际上，我认为您没有大量数据。我相信如果整体小于 50Mb，所以没有必要使用像 Mahout 这样的怪物，它们旨在处理非常非常大量的数据。为此，您可以使用Weka或RapidMiner 。即使他们无法使用默认配置处理您的数据，也只需增加 JVM 的内存，在 99% 的情况下他们会没事的。

machine-learning - 机器学习平台的选择

5 回答 5

Related

Reference