假设我有一个四类问题,其连续输出值在同一范围内。(假设在 10-50 之间)。如果我将所有类数据(训练数据)放在一个 .csv 文件(对于 WEKA)中,每个训练样本都有连续输出......那么我的回归模型将如何告诉我输出(连续)获得的是哪个班级???我想同时量化多类输入数据
问问题
632 次
1 回答
0
我现在仍然完全确定您的问题是什么,但我假设您有四个数据集,每个数据集都有一个回归问题,并且您希望对累积数据集执行回归并期望模型不仅恢复回归价值也是“源”。
- 在幼稚的实现中(只是连接数据)这是不可能的,因为您将丢失有关数据来源的任何信息
- 您可以增加输出值,因此您不仅可以添加“Y”(回归值),还可以添加另一个值来指示它来自哪个集合,例如:
.
Set1:
x11 -> y11
Set2:
x21 -> y21
Set3:
x31 -> y31
Set4:
x41 -> y41
你把它转换成
Big set:
x11 -> (y11,1)
x21 -> (y21,2)
x31 -> (y31,3)
x41 -> (y41,4)
或在一元编码中
Big set:
x11 -> (y11,1,0,0,0)
x21 -> (y21,0,1,0,0)
x31 -> (y31,0,0,1,0)
x41 -> (y41,0,0,0,1)
这样,一旦经过训练,您不仅可以检索回归值,还可以检索源数据集(您将其称为“类”)。
当然,最简单的解决方案是构建两个单独的模型,一个用于回归,一个用于分类,这样您就可以使用为这些任务设计的模型(而使用一个模型需要为至少一个部分选择一些次优的解决方案)。
Big set regression:
x11 -> y11
x21 -> y21
x31 -> y31
x41 -> y41
Big set classification:
x11 -> 1
x21 -> 2
x31 -> 3
x41 -> 4
创建这样的“大集合”而不是处理小集合是否有益的问题相当于回答了这个问题:
被回归的值在每个子问题中是否具有非常相似的预测变量
所以 - 如果你有合理的理由,在每个子问题中,这个特征可以以类似的方式推导出来(因为它对应于一些独立于你的数据拆分的物理现象),那么是的,这是一个好方法。尽管只有在训练集非常有限的情况下才应采取此类步骤 - 给定足够的数据,最好假设每个子问题具有不同的特征,以防止模型偏差。最后,“最终”答案是“检查两种方法并评估表现更好的方法”(例如使用交叉验证),这也将使您了解该值是否真正独立于子集中。
于 2013-10-08T07:05:10.790 回答