我是一个超级足球迷,对机器学习也很感兴趣。作为我的 ML 课程的一个项目,我正在尝试建立一个模型,根据主队和客队的名字来预测主队获胜的机会。(我查询我的数据集并根据之前的比赛创建数据点这两支球队之间)
我有所有球队几个赛季的数据,但是我有以下问题,我想提出一些建议。 EPL(英超联赛)有 20 支球队在主场和客场比赛(一个赛季总共 380 场比赛)。因此,每个赛季,任何 2 支球队只交手两次。
我有过去 10 多年的数据,导致两个团队有 2*10=20 个数据点。但是我不想超过 3 年,因为我相信球队会随着时间的推移发生相当大的变化(曼城,利物浦),这只会给系统带来更多的错误。
所以这导致每对团队只有大约 6-8 个数据点。但是,对于每个数据点,我确实有几个特征(最多 20 多个),例如两支球队的全场进球、半场进球、传球、射门、黄球、红球等,因此我可以包括最近的形式、最近的主场等特征表格,最近离开表格等
但是,仅使用 6-8 个数据点进行训练的想法对我来说似乎是不正确的。关于如何解决这个问题有什么想法吗?(如果这首先是一个问题,即)
谢谢!
编辑:FWIW,这是我在项目完成时编译的报告的链接。https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf 。这不是什么“好”的东西,但我认为我设法引出的一些观察结果非常酷(比如我的预测对德甲联赛非常有效,因为拜仁一直赢得联赛冠军)。