0

我有一些数据,主要是用户人口统计数据。有很多调查问题,人们的回答是“是”或“不是”。但是数据自然包含很多缺失值。我不想估算缺失值。我想把它当作第三类。所以每个问题都有三个可能的答案——“是”、“否”和“不确定”。

到目前为止我正在做的是:

model = graphlab.boosted_trees_classifier.create(train,
validation_set=None, target = target, max_iterations = 80, verbose = False)

我在哪里target预测(它是二进制 1 或 -1)。现在我的traintest数据集都有很多缺失值,所以我到目前为止所做的是:

predictions = model.predict(test, missing_value_action='impute')

但是这些预测并没有给我很好的准确性。我想将每两个类别的答案(Yes/No)转换为三个类别(Yes/No/NotSure)。该怎么做呢?

我试过了 :

colNames = train.column_names()
for i in colNames[6:]:
    train.fillna(i,'NotSure')

这执行没有任何错误,但它不起作用。

4

0 回答 0