拥有几乎无限量的训练和测试数据是一个巨大的优势。线性回归不太可能对您描述的不规则函数有用,但在完全注销之前,您可能希望查看派生特征而不是输入本身的回归。径向偏置函数有时可以代替您的基本 N 输入或作为其补充。
然而,我的建议是看一下回归树,尤其是随机森林。
回归树基本上是决策树,它从根开始,对 N 个输入中的一个进行比较以选择要遵循的分支。这一直持续到您到达具有与其关联的线性模型的树的叶子。在最简单的情况下,这可能只是一个常数值函数,表示在该叶子中结束的数据的平均值,但更复杂的学习算法将尝试为叶子选择一个线性模型,这将最小化叶子的预期平方误差(例如对 N 个输入值的某个子集进行岭回归)。
回归树对您的问题的优势在于,树将您的输入划分为可以应用不同公式的不同区域。有了足够的区域,线性函数可以逼近非常复杂的函数。
回归树确实有一些问题。模型在定义区域的决策边界附近的行为可能会出现数据不支持的不切实际的跳跃。此外,他们可能有一些统计问题。通过使用随机森林,这两个问题都得到了极大的缓解。
随机森林中的每棵树都是由一组唯一的引导数据创建的。通常,此引导程序集是通过从训练数据中获取带有替换的随机样本来创建的,但在您的独特情况下,您可以通过获取新的随机训练数据集来创建森林中的每棵树来改进这一点。然后在树的生长过程中,在每个节点处分支树的决策变量在该唯一节点处被限制为 N 个变量的随机子集。由于森林中的每棵树都是从不同的数据集创建的,并且可能在不同的数据上分支,因此回归树的弱点是分布的。为了进行预测,将输入提供给森林中的每棵树,并通过对所有树的结果进行平均来获得答案。这也回避了回归树可能存在的统计问题。
随机森林广受好评,是许多测试问题较好的回归技术之一。
(参见《统计学习要素:数据挖掘、推理和预测》第 2 版。- Trevor Hastie、Robert Tibshirani、Jerome Friedman、Springer 2008。)
或者更窄一点,Microsoft 技术报告决策森林用于分类、回归、密度估计、流形学习和半监督学习,http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf