0

我正在从事一个数据挖掘项目,并想挖掘这个数据集高等教育招生以获取有趣的模式或知识。我的问题是弄清楚哪种技术最适合数据集。

我目前正在使用 RapidMiner 5.0 处理数据集,并从数据中删除了两列(E550 - 参考年份,E931 - 学生总数 EFTSL),因为它们与分析无关。除了我用作id的 StudentID (整数)之外,其余属性都是名义上的。我目前正在对其进行分类(朴素贝叶斯),但希望得到其他人的意见,希望那些在这方面有更多经验的人。谢谢。

4

2 回答 2

0

除非您已经知道要查找的内容并了解数据源的质量,否则您应该始终从尝试各种探索性分析开始:

  • 查看所有变量的一些一阶和二阶统计量
  • 生成每个变量的直方图,以了解每个变量的经验分布
  • 查看可能具有依赖性的变量的成对散点图
  • 尝试您可能想到的其他可视化

这些可以让您大致了解可能存在什么样的模式,并且在考虑到噪声水平的情况下可能会被发现。然后根据您对哪种模式感兴趣,您可以开始尝试各种无监督模式学习方法,例如 PCA/ICA/因子分析、聚类或监督方法,例如回归、分类。

于 2012-10-01T20:21:35.593 回答
0

最佳技术取决于许多因素:训练和目标属性的类型/分布、领域、属性的值范围等。使用的最佳技术是数据分析和理解的结果。

在这种特殊情况下,您应该澄清要预测的属性。

于 2012-10-01T11:46:06.867 回答