我正在从事一个数据挖掘项目,并想挖掘这个数据集高等教育招生以获取有趣的模式或知识。我的问题是弄清楚哪种技术最适合数据集。
我目前正在使用 RapidMiner 5.0 处理数据集,并从数据中删除了两列(E550 - 参考年份,E931 - 学生总数 EFTSL),因为它们与分析无关。除了我用作id的 StudentID (整数)之外,其余属性都是名义上的。我目前正在对其进行分类(朴素贝叶斯),但希望得到其他人的意见,希望那些在这方面有更多经验的人。谢谢。
我正在从事一个数据挖掘项目,并想挖掘这个数据集高等教育招生以获取有趣的模式或知识。我的问题是弄清楚哪种技术最适合数据集。
我目前正在使用 RapidMiner 5.0 处理数据集,并从数据中删除了两列(E550 - 参考年份,E931 - 学生总数 EFTSL),因为它们与分析无关。除了我用作id的 StudentID (整数)之外,其余属性都是名义上的。我目前正在对其进行分类(朴素贝叶斯),但希望得到其他人的意见,希望那些在这方面有更多经验的人。谢谢。
除非您已经知道要查找的内容并了解数据源的质量,否则您应该始终从尝试各种探索性分析开始:
这些可以让您大致了解可能存在什么样的模式,并且在考虑到噪声水平的情况下可能会被发现。然后根据您对哪种模式感兴趣,您可以开始尝试各种无监督模式学习方法,例如 PCA/ICA/因子分析、聚类或监督方法,例如回归、分类。
最佳技术取决于许多因素:训练和目标属性的类型/分布、领域、属性的值范围等。使用的最佳技术是数据分析和理解的结果。
在这种特殊情况下,您应该澄清要预测的属性。