在数据挖掘领域是否有关于对具有一对多关系的数据进行分类的研究?
例如像这样的问题,假设我试图根据他们的班级成绩和个人信息来预测哪些学生将辍学。显然,学生的个人信息与他们在课堂上取得的成绩之间存在一对多的关系。
明显的方法包括:
聚合- 可以以某种方式将多条记录聚合在一起,将问题简化为基本分类问题。在学生分类的情况下,他们的平均成绩可以与他们的个人数据相结合。虽然这个解决方案很简单,但关键信息通常会丢失。例如,如果大多数学习有机化学并且成绩低于 C- 的学生即使他们的平均成绩高于 B+ 也会辍学怎么办。
表决- 创建多个分类器(通常是弱分类器)并让它们投票以确定相关数据的整体类别。这就像如果构建了两个分类器,一个用于学生的课程数据,一个用于他们的个人数据。每个课程记录将被传递给课程分类器,并根据成绩和课程名称,分类器将预测学生是否会单独使用该课程记录退出。个人数据记录将使用个人数据分类器进行分类。然后将所有班级记录预测连同个人信息记录预测一起投票。这种投票可以通过多种不同的方式进行,但很可能会考虑分类器的准确度以及分类器的投票确定性。显然,该方案允许比聚合更复杂的分类模式,但涉及很多额外的复杂性。此外,如果投票表现不佳,准确性很容易受到影响。
因此,我正在寻找具有一对多关系的数据分类的其他可能解决方案。