我正在使用一个包含数值 + 分类数据的数据集。在训练和评估之前,我将分类特征转换为数字,我最终拥有相同数量的特征,只是数字:
基于此笔记本:
https://www.kaggle.com/jannesklaas/explaining-income-classification-with-keras/notebook
我的模型使用 keras + Estimator (model_to_estimator),它定义了一个训练和服务函数。
总功能:14
- 我的训练数据集,包含 14 个。
- 我的评估数据集包含 14 个。
输入功能:
def input_fn(features, labels, shuffle, num_epochs, batch_size):
dataset = tf.data.Dataset.from_tensor_slices((features, labels))
if shuffle:
dataset = dataset.shuffle(buffer_size=256)
dataset = dataset.repeat(num_epochs)
dataset = dataset.batch(batch_size)
return dataset
如果我想做真实的预测,数据需要转换为数字吗?
25, Private, 226802, 11th, 7, Never-married, Machine-op-inspct, Own-child, Black, Male, 0, 0, 40, United-States, <=50K
这是估算器服务功能:
train_input_fn = lambda: input_fn(features=X_train,
labels=Y_train,
shuffle=True,
num_epochs=10,
batch_size=40)
estimator.train(train_input_fn)
参考这里
如何创建一个能够传递预测的函数?