4

我有一个包含许多简历的数据库,包括每个人的性别、年龄、地址、受教育年限和许多其他参数的结构化数据。

对于大约 10% 的样本,我还有一些关于他们在某个时间点采取的特定行动的额外数据。例如,Jane 于 1998 年 7 月获得房屋贷款,或者 John 于 2007 年 1 月开始飞行员培训并于 2007 年 12 月获得执照。

我需要一种算法,该算法将为每个动作提供在未来时间增量中每个人发生的概率。例如,比尔在 2011 年获得住房贷款的机会是 2%,在 2012 年是 3.5%,等等。

我应该如何处理这个?回归分析?支持向量机?神经网络?还有什么?

是否有一些标准工具/库可以仅用于明显的自定义设置?

4

3 回答 3

1

楼是对的,这就是“贝叶斯推理”的情况。

解决这个问题的最佳工具/库是 R 统计编程语言 (r-project.org)。

看看 R 中的贝叶斯推理库: http: //cran.r-project.org/web/views/Bayesian.html

“10%的样本”中有多少人?如果少于 100 人左右,我担心分析的结果不会很重要。如果是 1000 人或更多人,结果会非常好(经验法则)。

我会先将数据导出到 R(r-project)并进行必要的数据清理。然后找一个熟悉R和高级统计的人,他很快就能解决这个问题。或者你自己试试,但 R 在开始时需要一些时间。

于 2010-10-11T22:11:03.830 回答
1

关于工具/库的选择,我建议你试试Weka 。它是一个用于试验数据挖掘机器学习的开源工具。Weka 有多种工具用于读取、处理和过滤您的数据,以及预测和分类工具。

但是,您必须在上述领域具有扎实的基础才能争取有用的结果。

于 2011-12-09T11:01:14.357 回答
1

我认为,鉴于 Y 发生,X 发生的概率正好来自贝叶斯推断。

于 2010-09-18T21:27:22.607 回答