2

我是机器学习的新手。

我有一个连续的数据集。我正在尝试使用多种功能对目标标签进行建模。我利用 train_test_split 函数将训练数据和测试数据分开。我正在使用以下代码训练和测试模型:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = Sequential()
model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))
model.add(Dense(1, kernel_initializer = 'normal'))
hist = model.fit(X_train.values, y_train.values, validation_data=(X_test.values,y_test.values), epochs=200, batch_size=64, verbose=1) 

当我使用 X_test 和 y_test 验证数据时,我可以获得很好的结果:

https://drive.google.com/open?id=0B-9aw4q1sDcgNWt5TDhBNVZjWmc

然而,当我使用这个模型来预测另一个数据 (X_real, y_real) (除了它们不是由 train_test_split 随机选择之外,它们与 X_test 和 y_test 没有太大区别)我得到了不好的结果:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

model = Sequential()
model.add(Dense(128, input_dim=X.shape[1], kernel_initializer = 'normal', activation='relu'))
model.add(Dense(1, kernel_initializer = 'normal'))
hist = model.fit(X_train.values, y_train.values, validation_data=(X_real.values,y_real.values), epochs=200, batch_size=64, verbose=1) 

https://drive.google.com/open?id=0B-9aw4q1sDcgYWFZRU9EYzVKRFk

是不是过拟合的问题?如果是这样,为什么我的模型可以与 train_test_split 生成的 X_test 和 y_test 一起工作?

4

2 回答 2

1

似乎您的“真实数据”与您的训练和测试数据不同。为什么首先要有“真实”和“训练”数据?

我的方法是:

1:混合你拥有的所有数据

2:将您的数据随机分为 3 组(训练、测试和验证)

3:像现在一样使用训练和测试并优化分类器

4:当它足够好时,使用您的验证集验证分类器以确保不会发生过度拟合。

于 2017-10-17T13:32:01.660 回答
1

如果您的数据较少,那么我建议您尝试不同的算法。神经网络通常需要大量数据才能获得正确的权重。此外,您的真实数据似乎与训练和测试数据不属于同一分布。不要隐藏任何东西,洗牌并使用训练/验证/测试拆分。

于 2017-10-20T10:37:46.663 回答