我有一个训练数据集,它根据过去几年(2005-2007 年)的表现对各种板球运动员(2008 年)进行排名。
我必须使用这些数据开发一个模型,然后将其应用于另一个数据集,以使用已经提供给我的数据(2009-2011)预测玩家(2012)的排名。
哪种预测模型最适合这个?使用不同形式的回归或神经网络的优缺点是什么?
我有一个训练数据集,它根据过去几年(2005-2007 年)的表现对各种板球运动员(2008 年)进行排名。
我必须使用这些数据开发一个模型,然后将其应用于另一个数据集,以使用已经提供给我的数据(2009-2011)预测玩家(2012)的排名。
哪种预测模型最适合这个?使用不同形式的回归或神经网络的优缺点是什么?
要使用的模型类型取决于不同的因素:
如果您仍然无法选择其中一种方法,对您来说实用的方法是评估几种不同的预测方法。您将一些已经有目标值的数据(2008 年的数据)提取为训练和测试数据(例如,将 10% 作为测试数据),使用交叉验证进行训练和测试,并计算错误率将预测值与您已有的目标值进行比较。
C. Bishop 的《模式识别和机器学习》是一本很棒的书,它也在网络上。它有一个关于预测模型的精彩介绍部分。
- 哪种预测模型最适合这个?2. 使用不同形式的回归或神经网络的优缺点是什么?
“什么是最好的”取决于你拥有的资源。具有信息理论学习图的完整贝叶斯网络(或 k-依赖贝叶斯网络)是最终的“无假设”模型,并且通常表现得非常好。复杂的神经网络也可以表现得非常出色。此类模型的问题在于它们的计算成本可能非常高,因此采用近似方法的模型可能更合适。回归、神经网络和贝叶斯网络在数学上存在相似之处。
回归实际上是一种简单的神经网络形式,对数据有一些额外的假设。可以构建神经网络以减少对数据的假设,但正如 Thomas789 所指出的,其代价是难以理解(有时非常难以调试)。
根据经验 - 模型中的假设和近似值越多,就越容易 A:理解和 B:找到必要的计算能力,但可能会以性能或“过度拟合”为代价(这是模型适合训练数据很好,但不能外推到一般情况)。
免费在线书籍: