我不确定这是否是问这个问题的最佳地点,但是你们过去对我的大量 CS 作业很有帮助,所以我想我会试一试。
我正在寻找一种算法来盲目地将几个因变量组合成一个索引,以产生与外部变量的最佳线性拟合。基本上,它将使用不同的数学运算符组合因变量,包括或不包括每个变量等,直到开发出与我的外部变量最相关的索引。
有没有人见过/听说过这样的事情?即使你能指出我正确的方向或正确的地方问,我会很感激。谢谢。
我不确定这是否是问这个问题的最佳地点,但是你们过去对我的大量 CS 作业很有帮助,所以我想我会试一试。
我正在寻找一种算法来盲目地将几个因变量组合成一个索引,以产生与外部变量的最佳线性拟合。基本上,它将使用不同的数学运算符组合因变量,包括或不包括每个变量等,直到开发出与我的外部变量最相关的索引。
有没有人见过/听说过这样的事情?即使你能指出我正确的方向或正确的地方问,我会很感激。谢谢。
听起来您正在尝试进行多元线性回归或多元回归。最简单的方法(阅读:不太准确)是单独计算每个组件变量的线性回归线,然后对每条线进行加权平均。除此之外,恐怕我也帮不上什么忙了。
这似乎是使用多个解释变量的简单线性回归。由于这里的含义是您正在使用一种计算方法,您可以使用您拥有的解释变量的每个可能组合(是否要包括交互效果是您的选择)来做一些简单的事情,将线性模型应用于您的数据,选择拟合优度(R^2 只是一个例子)并使用它来对您拟合的每个模型的拟合度进行排名?模型的质量在许多领域也有些主观 - 如果一个包含 15 个变量的模型与仅包含 3 个变量的简单得多的模型相比,它仅适度提高了拟合度,则您可以拒绝该模型。如果您还没有阅读它,我相信您会在以下文本中找到许多有用的建议:
Draper, NR 和 Smith, H. (1998). 概率和统计中的应用回归分析 Wiley 系列
您也可以尝试使用 google 搜索模型选择的 LASSO 方法。