machine-learning - 如何为 TensorFlow 分类器创建特征列

Question

我在 csv 文件中有一个非常简单的二进制分类数据集，如下所示：

"feature1","feature2","label"
1,0,1
0,1,0
...

其中"label"列表示类别（1 为正，0 为负）。功能的数量实际上相当大，但对于这个问题并不重要。

这是我读取数据的方式：

train = pandas.read_csv(TRAINING_FILE)
y_train, X_train = train['label'], train[['feature1', 'feature2']].fillna(0)

test = pandas.read_csv(TEST_FILE)
y_test, X_test = test['label'], test[['feature1', 'feature2']].fillna(0)

我想运行tensorflow.contrib.learn.LinearClassifier并tensorflow.contrib.learn.DNNClassifier处理该数据。例如，我像这样初始化 DNN：

classifier = DNNClassifier(hidden_units=[3, 5, 3],
                               n_classes=2,
                               feature_columns=feature_columns, # ???
                               activation_fn=nn.relu,
                               enable_centered_bias=False,
                               model_dir=MODEL_DIR_DNN)

feature_columns那么，当所有特征也是二进制（0 或 1 是唯一可能的值）时，我应该如何创建呢？

下面是模型训练：

classifier.fit(X_train.values,
                   y_train.values,
                   batch_size=dnn_batch_size,
                   steps=dnn_steps)

用输入函数替换fit()参数的解决方案也很棒。

谢谢！

PS 我使用的是 TensorFlow 1.0.1 版

score 7 · Accepted Answer

您可以直接使用tf.feature_column.numeric_column：

feature_columns = [tf.feature_column.numeric_column(key = key) for key in X_train.columns]

score 3 · Accepted Answer

我刚刚找到了解决方案，它非常简单：

feature_columns = tf.contrib.learn.infer_real_valued_columns_from_input(X_train)

显然infer_real_valued_columns_from_input()适用于分类变量。

machine-learning - 如何为 TensorFlow 分类器创建特征列

2 回答 2

Related

Reference