1

我有一个 63*62 的训练集,并且类标签也存在。测试数据是 25*62 尺寸,也有类标签。鉴于此,我将如何执行最小二乘回归?我正在使用代码:

res = lm(height~age)

身高和年龄对应什么?当我有 61 个特征 + 1 个类(训练数据为 62 列)时,我将如何输入参数?

另外我如何将模型应用于测试数据?

4

2 回答 2

2

如果您有 62 列,则可能需要使用更通用的公式

res = lm(height ~ . , data = mydata)

注意句号'.' 代表其余的变量。但是前面的答案是完全正确的,因为变量多于观察结果,因此答案(如果有任何不应该的答案)是完全没用的。

于 2013-04-10T00:30:28.627 回答
1

height并且age只是数据框中列的标签。height是预测变量。您可以在其中拥有任意数量的变量:res = lm(height~age+wight+gender)

但是,我必须说这个问题对我来说似乎有点奇怪,因为如果你正在执行一个回归,其中 62 个变量在训练集中有 62 个点,这仅仅意味着你总是有一个精确的解决方案。训练集应始终(显着)大于使用的变量数量。

于 2013-04-10T00:19:14.667 回答