3

我需要想出一个公式,该公式最多需要 N 个输入并计算一个应该尽可能多地预测“正确”答案的数字。每个输入都是十进制值或整数。输出也是十进制值。

我有大量荒谬的数据(认为它是无限的)。在每种情况下,我都有所有输入的值和输出的正确值。

这些特征都是相互关联的(即,当一个高时另一个更可能低)并且它们与答案具有不同程度的相关性。

没有“完美”的公式,但应该有一个在许多具有统计意义的情况下都适用。如果我有一个“最佳”解决方案,它可能既是非线性的又是离散的。然而,这是一次性计算。

哪种机器学习解决方案最适合利用这些特征并创建一个准确的模型来表示如此复杂的、有点随机的数据?

编辑:做一些更多的研究似乎任何类型的线性回归都会失败。神经网络看起来是最好的选择,但我不知道他们是否可以预测这种在不同范围内具有不同公式的“离散”函数。

4

1 回答 1

5

拥有几乎无限量的训练和测试数据是一个巨大的优势。线性回归不太可能对您描述的不规则函数有用,但在完全注销之前,您可能希望查看派生特征而不是输入本身的回归。径向偏置函数有时可以代替您的基本 N 输入或作为其补充。

然而,我的建议是看一下回归树,尤其是随机森林。

回归树基本上是决策树,它从根开始,对 N 个输入中的一个进行比较以选择要遵循的分支。这一直持续到您到达具有与其关联的线性模型的树的叶子。在最简单的情况下,这可能只是一个常数值函数,表示在该叶子中结束的数据的平均值,但更复杂的学习算法将尝试为叶子选择一个线性模型,这将最小化叶子的预期平方误差(例如对 N 个输入值的某个子集进行岭回归)。

回归树对您的问题的优势在于,树将您的输入划分为可以应用不同公式的不同区域。有了足够的区域,线性函数可以逼近非常复杂的函数。

回归树确实有一些问题。模型在定义区域的决策边界附近的行为可能会出现数据不支持的不切实际的跳跃。此外,他们可能有一些统计问题。通过使用随机森林,这两个问题都得到了极大的缓解。

随机森林中的每棵树都是由一组唯一的引导数据创建的。通常,此引导程序集是通过从训练数据中获取带有替换的随机样本来创建的,但在您的独特情况下,您可以通过获取新的随机训练数据集来创建森林中的每棵树来改进这一点。然后在树的生长过程中,在每个节点处分支树的决策变量在该唯一节点处被限制为 N 个变量的随机子集。由于森林中的每棵树都是从不同的数据集创建的,并且可能在不同的数据上分支,因此回归树的弱点是分布的。为了进行预测,将输入提供给森林中的每棵树,并通过对所有树的结果进行平均来获得答案。这也回避了回归树可能存在的统计问题。

随机森林广受好评,是许多测试问题较好的回归技术之一。

(参见《统计学习要素:数据挖掘、推理和预测》第 2 版。- Trevor Hastie、Robert Tibshirani、Jerome Friedman、Springer 2008。)

或者更窄一点,Microsoft 技术报告决策森林用于分类、回归、密度估计、流形学习和半监督学习,http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

于 2012-07-08T07:09:07.243 回答