1

我有一个具有多个特征的数据集,其中一个特征是分类的,但其值具有树结构。例如,如果此分类特征具有值 a、b、c、d、e、f、g、h、I、j、k。然后下图显示了值的树关系: 在此处输入图像描述

原始特征不包含这种关系(因此该特征只占一列)。现在,我想合并这种关系,但我仍然希望特征是矢量形式。
我的解决方案是:为每个节点创建一个二进制值列。所以在这个例子中,特征可以用长度为 11 的二进制向量表示。等于 e 的特征值可以表示为 <1, 1, 0,1,0,0, 0, 0,0,0,0> (如下所示)
在此处输入图像描述 其中第一个元素表示第一级 b;2nd 元素表示第二层 a;第 3、4、5、6 个元素分别表示第三级 d、e、g 和 j;第 7 个元素表示第二级 c;第 8、第 9、第 10 和第 11 个元素分别表示第三级 f、h、i 和 k。
我认为这可行的原因是你可以从这个向量表示中恢复树,所以我认为在这个转换过程中信息不会丢失。
这种转换的主要目的是我想在这个数据集上使用一些机器学习算法,所以我希望数据集提供更多信息。
我想知道这种转换是否有效,如果无效,为什么?以及是否有更好的方法来做到这一点。

4

0 回答 0