6

我有一个用户数据集和他们的贷款还款指标(他们花了多长时间,分期付款多少等)。现在我想分析用户过去的贷款历史并说,“如果我们借给他们 X,他们很可能会在 Z 天内分期偿还 Y”

这是我的看法

  1. 该算法是一种聚类算法,根据用户的还款习惯对所有用户进行分组
  2. 我想使用 SOM 或 K-Means

所以我的问题是,哪些平台对此有好处?到目前为止,我已经看过 Mahout。

4

5 回答 5

2

RapidMiner - 免费提供社区版 - 易于使用 - 漂亮的可视化

http://rapid-i.com/content/view/181/190/

于 2011-10-16T17:40:27.937 回答
2

值得一看Weka - 它是一个相当成熟的开源工具包,包含许多机器学习算法,包括集群。

于 2011-01-27T17:29:59.793 回答
0

关于这个主题有一本令人惊叹的书——Toby Segaran 的《Programming Collective Intelligence》。它讨论了不同的机器学习算法、聚类等。还包括指向有用库和示例代码的链接。

于 2011-10-16T17:57:07.970 回答
0

另一个不错的库是scikits.learn,这是一个供 Python 程序员使用的机器学习库。

于 2011-02-08T08:34:38.830 回答
0

为什么要聚类?它看起来不像聚类问题。您可以将聚类分析作为预处理阶段来区分几组用户(或者您可以省略此阶段),但是您需要进行某种数字预测:分期付款和天数都是数字,所以你好吗将通过聚类获得这些数字?

我建议您对这项任务使用回归。线性回归必须满足您的需求。如果因变量(分期付款数和天数)非线性地依赖于其他属性,您可以尝试多项式回归甚至像M5'这样的算法,首先构建决策树,然后将回归模型添加到该树的每个叶子。

如果您有非数字属性,您也可以尝试使用分类- 在这种情况下,您需要手动创建可能的类别(例如,分期付款:从 3 到 5,从 6 到 10 等),然后使用任何分类算法(C4.5、SVM、朴素贝叶斯等等)。

实际上,我认为您没有大量数据。我相信如果整体小于 50Mb,所以没有必要使用像 Mahout 这样的怪物,它们旨在处理非常非常大量的数据。为此,您可以使用WekaRapidMiner 。即使他们无法使用默认配置处理您的数据,也只需增加 JVM 的内存,在 99% 的情况下他们会没事的。

于 2011-10-16T18:29:36.737 回答