我有一个 12k 样本的训练集。每个样本都是我的模型的结果。
例如,我有 2 个特征和一个标签(f1 是一个类别,f2 是一个文本):
F1,F2,LABEL
ALPHA, 114, ALPHA_114
ALPHA, 125, ALPHA_125
BETA, 213, BETA_213
我会在 ALPHA_114 而不是 BETA_213 中匹配“ALPHA 113”(我会更正用户的输入)。
我在大约 40 秒内训练了 40 个样本。之后,我想训练 120 个样本,但 360 秒后没有找到模型。
我需要训练多长时间才能从 12k 个样本中学习?
我想问题可能是我有太多的标签
第一个解决方案:我会将我的训练集拆分为彼此相距较远的较小集,例如一组 where F1 like 'A*'
,F1 like 'B*'
依此类推。然后,为每个集合建立一个模型并合并这些模型以创建一个独特的大模型。
这个对吗?是否存在合并不同模型的方法?有没有更聪明的方法?
第二种解决方案可能是创建n 个随机集合(300 个集合,每组 40 个样本?),从单个集合中学习并合并模型。问题都是一样的