请就以下聚类问题的编码数据提出建议。我有一个包含汽车使用信息的数据集。数据集有以下字段: 1. 车型(Toyoya Celica、BMW、Nissan X-Trail、Mazda Cosmo 等) 2. 建造年份 3. 汽车行驶的国家 4. 大修前的汽车行驶距离
重要提示:上述数据集是稀疏的。在大多数情况下,并非所有国家/地区都知道给定汽车的“距离”。
问题:对于给定的汽车,预测它在“距离”未知的国家进行大修之前将运行的“距离”。
我的方法:我想将数据集中的每条记录表示为具有以下组件的稀疏向量: 1. 二进制 (1/0) 汽车模型组件。这些组件的数量等于数据集中所有可能模型的数量。2.汽车运行的二进制(1/0)国家。这些组件的数量等于数据集中所有可能国家的数量。3. 距离。单个整数分量,等于汽车行驶的距离。
接下来我想对这些向量进行聚类(k-means)并分析结果组。
问题: 1)在我的向量中,我混合了不同性质的组件 - 二进制(模型,国家)和连续(距离)。如何计算向量之间的组件距离?余弦相似度?2)用有限的值集(模型,国家)对组件进行编码以与连续组件(例如距离)一起工作的其他方法?
谢谢!安东