这是我的问题。我需要实现一个多目标决策树算法。多目标是多标签学习的扩展,其中标签不是二元的,而是连续的、分类的等。例如,多标签分类问题的标签向量可能看起来像 {1,0,1,0,0,0,1},而多目标可能看起来像 {2,35,3,-2, 24}。我的问题是这个。如果我有一个带有 3 个离散值的标签,我如何在向量中表示它们?假设我有一个名为 job 的标签,它包含 3 个值,即机械师、教师和运动员。我如何编码这个标签以便在向量中使用它?在决策树的每个节点上,为了找到我的拆分,我需要计算该节点中所有标签向量的平均向量(我正在使用方差方法方程来找到我的拆分)。如果我有二进制标签,这将很容易,因为添加 0 和 1 不会造成任何问题。如果我用 0、1、2 对这 3 个工作进行编码,那么这就是问题,因为添加具有标签运动员的标签向量比添加具有工作机制且平均向量不准确的向量更重要。
让我们举这个例子。我有这 3 个标签:
job: {mechanic,teacher,athlete}
married:{yes,no}
age: continuous value
很容易说,已婚标签可以编码为{0,1},而年龄标签可以编码为连续数字。但是我如何编码工作标签?将其编码为 {0,1,2} 会导致下一个问题。想象一个节点中有 2 个标签向量:{0,0,45} 对应于 mechanic,married 和 45 岁,{2,1,48} 对应于运动员,未婚,45 岁。平均向量是 {1,0.5,46.5}。有了这个向量,我可以预测落入该节点的实例的年龄是 46.5,我可以说未结婚的实例(使用大于或等于 0.5 的规则是 1),我可以说它的工作是老师。老师的工作完全错了,而其他人都还好。您现在看到了编码分类标签的问题。帮助或建议???感谢:D