假设对于一个给定的机器学习问题,我们有一个人拥有哪辆车的特征。我们可以通过以下方式之一对这些信息进行编码:
- 为每辆车分配一个 ID。制作一列“CAR_POSSESSED”并将功能 ID 作为值。
- 为每辆汽车制作列,并根据该汽车是否为所考虑的样本所拥有,输入 0 或 1。列将类似于“BMW_POSSESSED”、“AUDI_POSSESSED”。
在我的实验中,当与 SVM 一起尝试时,第二种方法的性能比第一种方法好得多。
编码方式如何影响模型学习,有没有研究过编码影响的资源?或者我们是否需要进行命中和试验来检查它在哪里表现最好?