0

我有一个包含分类列(击球手)的数据框。我试图在类别列中的每个类别中预测另一个连续变量(在每个球上运行)。

date         totalballs(to predict)   Batsman (category)     Runs on each ball (x variable)
2016-03-18          3                  Chris                                   1
2013-02-09         12                  Ben                                     2
2018-01-07          2                  Eoin                                    1

但是,每个类别都包含不同数量的数据。有些人会提供 1000 个连续列的样本来训练模型,而其他人则少于十几个。在具有大量数据的类别中,对特定于该类别的数据进行大量加权会很好,但在数据较少的类别中对整个数据集进行更高的加权

目前我正在使用线性回归模型(绝不固定于此)。该模型是否会自动对特定于分类 x/batsman 列的数据点进行加权,该数据点通常比其他 batsman 重?如果是这样,特定于具有更多数据的击球手的数据点的权重是否大于特定于具有较少数据的击球手的数据点?有没有办法让模型这样做?

目前,对于非常大的类别,我正在提取和训练特定于该类别的数据

dlem = df.copy()
m = dlem.batsman == "Chris Gayle"
dm = dlem[m]

x = dm.drop(['host', 'batsman', 'runsadded'], axis=1)
y = dn.runsadded

reg = LinearRegression().fit(x_train, y_train)

而对于较小的类别,我正在对整个数据集进行训练

x = df.drop(['host', 'batsman', 'runsadded'], axis=1)
y = df.runsadded

reg = LinearRegression().fit(x_train, y_train)

有没有办法在使用整体数据量和特定于相关类别的数据之间找到最佳值?以及如何找到针对每个不同大小类别的最佳选择?

4

0 回答 0