11

我是一个超级足球迷,对机器学习也很感兴趣。作为我的 ML 课程的一个项目,我正在尝试建立一个模型,根据主队和客队的名字来预测主队获胜的机会。(我查询我的数据集并根据之前的比赛创建数据点这两支球队之间)

我有所有球队几个赛季的数据,但是我有以下问题,我想提出一些建议。 EPL(英超联赛)有 20 支球队在主场和客场比赛(一个赛季总共 380 场比赛)。因此,每个赛季,任何 2 支球队只交手两次。

我有过去 10 多年的数据,导致两个团队有 2*10=20 个数据点。但是我不想超过 3 年,因为我相信球队会随着时间的推移发生相当大的变化(曼城,利物浦),这只会给系统带来更多的错误。

所以这导致每对团队只有大约 6-8 个数据点。但是,对于每个数据点,我确实有几个特征(最多 20 多个),例如两支球队的全场进球、半场进球、传球、射门、黄球、红球等,因此我可以包括最近的形式、最近的主场等特征表格,最近离开表格等

但是,仅使用 6-8 个数据点进行训练的想法对我来说似乎是不正确的。关于如何解决这个问题有什么想法吗?(如果这首先是一个问题,即)

谢谢!

编辑:FWIW,这是我在项目完成时编译的报告的链接。https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf 。这不是什么“好”的东西,但我认为我设法引出的一些观察结果非常酷(比如我的预测对德甲联赛非常有效,因为拜仁一直赢得联赛冠军)。

4

3 回答 3

5

这是一个有趣的问题,我认为没有独特的解决方案。但是,如果我处于您的位置,我可以尝试一些小事情。

我分享您关于每节课大约 6-8 分的担忧,因为数据太少而无法建立可靠的模型。所以我会尝试对这个问题进行一些不同的建模。为了为每个班级提供更多数据,而不是 20 个班级,我将只有两个(主场/客场),我会添加两个特征,一个用于主场球队,另一个用于客场球队。在该设置中,您仍然可以预测哪支球队会在主场或客场比赛中获胜,并且您的问题有更多数据来产生结果。

另一个想法是从其他欧洲联赛中获取数据。由于现在球队是一个特征而不是一个类别,它不应该给你的模型增加太多噪音,你可以从额外的数据中受益(假设这些特征在其他联赛中有效)

于 2013-03-20T14:26:13.013 回答
2

我有一些类似的系统 - 源数据的良好基础是 football-data.co.uk。我为每个联赛使用了最后 N 个赛季并建立了一个模型(相信我,3 年以上是必须的!)。取决于您的标准功能 - 如果标准是最合适的或最大的利润,您可以建立自己的预测模型。

一件非常好的事情是每个联赛都是不同的,博彩公司在比利时的热门主场胜率与在第 5 届英格兰联赛中给出的赔率不同,例如,您可以在其中找到真正有价值的赔率。

从中您可以编写有趣的模型,例如在特定比赛中击败庄家的投注技巧,使用您的模式并进行价值投注。或者,您可以尝试尽可能多地追逐获胜技巧,但可能会赚得更少(即使获胜的抽奖数量较少,抽奖也会赚很多钱)。

希望我给了你一些想法,更多请随时提问。

于 2015-02-09T13:22:56.887 回答
1

不知道这是否仍然有用,但像全场进球、半场进球、传球、射门、黄球、红球等功能是您想要分类的新比赛所没有的功能。

我会将其视为分类问题(您希望将匹配分类为 3 个类别之一:1、X 或 2)并添加更多功能,您也可以将这些功能应用于新匹配。即:失踪球员的数量(由于受伤/红牌),每支球队在比赛开始前的连续胜/平/负数,即主队(已经提到过),进球数最近几场主客场比赛等等……

有 6-8 场比赛才是真正的问题。这个数据集非常小,会有很多过拟合,但如果你使用我提到的那些特征,我认为你也可以使用旧数据。

于 2014-02-26T02:19:30.397 回答