10

假设您正在尝试根据某些特征对房屋进行分类:

  • 总面积
  • 房间的数量
  • 车库区

但并不是所有的房子都有车库。但是当它们这样做时,它们的总面积会成为一个非常有区别的特征。利用此功能中包含的信息的好方法是什么?

4

3 回答 3

5

您可以合并一个零/一虚拟变量,指示是否有车库,以及车库面积与虚拟变量的叉积(对于没有车库的房屋,将面积设置为零)。

于 2013-03-18T10:14:15.060 回答
1

最好的方法是使用所有功能构建数据集,并且在大多数情况下,将那些不可用的列填充为零就可以了。

使用您的示例,它将类似于:

Total area  Number of rooms Garage area
100         2               0
300         2               5
125         1               1.5

通常,您选择的学习算法足够强大,可以使用这些零来正确分类该条目。毕竟,没有价值,它仍然是算法的信息。如果您的数据有偏斜,这可能会成为一个问题,但在这种情况下,您无论如何都需要解决偏斜问题。

编辑:

我只是意识到还有另一个答案是你害怕使用零,因为它可能与小车库混淆。虽然我仍然认为这没有问题(小车库和零之间应该有足够的差异),但您仍然可以使用相同的结构将不存在区域车库标记为负数(假设为 -1)。

另一个答案中指出的解决方案也完全合理,具有指示房屋是否有车库的额外功能可以正常工作(特别是在基于决策树的算法中)。我只是更喜欢将数据的维度保持在尽可能低的水平,但归根结底,这更像是一种偏好,而不是技术决定。

于 2013-03-18T13:52:50.663 回答
0

你会想要加入一个零指标功能。也就是说,当车库大小为 0 时为 1,任何其他值为 0 的特征。

您的特征向量将是:面积 | 房间数 | 车库大小 | 车库存在

然后,您的机器学习算法将能够看到车库大小的这个(非线性)特征。

于 2015-09-01T10:55:17.253 回答