我有一个数据集 (x,y),其中 x 是 n 维向量,y 是 m 维向量。(m=3, n>2) 我的目标是在 x 中找到适合 (x,y) 数据集的最佳多项式。
x 的维度相当大(现在是 25),我不想手动输入所有可能性(即 x1*x3*x5、x1*x4*x6、...)。我可以使用 Matlab、Mathematica 和 R。我该怎么做?
另外,我很想听听您对以下问题的建议:如何从结果中选择最相关的系数?(也许 x1*x2 比 x2*x3 更相关)
谢谢
我有一个数据集 (x,y),其中 x 是 n 维向量,y 是 m 维向量。(m=3, n>2) 我的目标是在 x 中找到适合 (x,y) 数据集的最佳多项式。
x 的维度相当大(现在是 25),我不想手动输入所有可能性(即 x1*x3*x5、x1*x4*x6、...)。我可以使用 Matlab、Mathematica 和 R。我该怎么做?
另外,我很想听听您对以下问题的建议:如何从结果中选择最相关的系数?(也许 x1*x2 比 x2*x3 更相关)
谢谢
这个问题实际上不是关于任何分析平台,而是关于如何正确地进行多变量分析。因此,它应该增加对主题领域的描述。还需要适当考虑正在发生的隐式多重测试以及应该执行什么样的惩罚以避免推论统计数据的膨胀。底线:您应该阅读 Frank Harrell 的“回归建模策略”,其中每个句子都被扩展为一个完整的章节。(我也认为这个问题过于宽泛,应该关闭或迁移到 stats.stackexchange。)它还没有准备好进行黄金时段的编码。
除了 DWin 的回答:
关于您的多项式,您可以通过对范德蒙德矩阵的线性回归来表达,然后使用多元线性回归。但是,对于许多变量,您可能会发现您更需要限制模型而不是允许更大的自由度。
另外,我很想听听您对以下问题的建议:如何从结果中选择最相关的系数?(也许 x1*x2 比 x2*x3 更相关)
这归结为变量选择,这是一个众所周知的难题。我认为埃夫隆将其命名为未解决的大问题之一......