我正在做一个比较各种分类算法有效性的项目,但我陷入了一个令人沮丧的点。数据可以在这里找到:http: //archive.ics.uci.edu/ml/datasets/Adult分类问题是根据人口普查数据,一个人的年收入是否超过 5 万。
两个示例条目如下:
45, Private, 98092, HS-grad, 9, 已婚-公民-配偶, 销售, 丈夫, 白色, 男性, 0, 0, 60, 美国, <=50K
50, Self-emp-not-inc, 386397, 单身汉, 13, 已婚公民, 销售, 丈夫, 白人, 男性, 0, 0, 60, 美国, <=50K
我熟悉使用欧几里得距离来计算向量之间的差异,但我不确定如何混合使用连续和离散属性。是否有任何有效的方法可以以有意义的方式表示两个向量之间的差异?我很难弄清楚第三个属性(由提取数据集的人根据因素计算的权重,因此相似的权重应该具有相似的属性)之类的值有多大,以及它之间的差异可以保留意义来自男性或女性等离散特征,如果我正确理解该方法,则欧几里得距离仅为 1。我确信可以删除某些类别,但我不想删除那些会显着影响分类的东西。我'