我正在尝试编写代码来为混合类型数据构建一个不断增长的 SOM。我遇到了一篇论文《Growing Self-Organizing Map with cross insert for mixed-type data》(http://www.sciencedirect.com/science/article/pii/S1568494612001731)。它非常有趣,并以统一的方式处理分类数据和数字数据。但是,我的数据集具有可以具有多个值的变量/属性(例如:属性“兴趣”可以具有多个值 - 电影、体育等等......)。我被困在处理这些属性上。任何输入如何处理具有混合类型数据集中值集的属性?对讨论这个问题的材料的参考将不胜感激。
问问题
1648 次
1 回答
1
在神经网络中使用分类属性时的一种常见做法是将属性分解为多个二元属性(真/假),一个对应于分类属性的每个属性值。例如,如果您的属性“interests”的值为“movies”、“sports”、“cooking”,那么您将把它分成三个属性,每个属性一个,值为 0/1 的电影,值为 0/1 的运动和烹饪值 0/1。唯一可以避免这种拆分的情况是属性值可以排序并因此转换为单个数字属性。例如,如果您有一个关于质量的属性,其值为差、中和好,那么您只需将这些值映射到数字 0、1、2 或类似的值。你不能对像“兴趣”这样的属性做同样的事情 因为如果您将 0 分配给电影,1 分配给运动,2 分配给烹饪,那么您认为运动比电影更类似于烹饪,这当然是错误的。当你的分类属性有很多可能的值而不仅仅是三个时,不幸的是事情变得非常糟糕。
http://www.mathworks.com/support/solutions/en/data/1-8H0STM/index.html
谷歌
机器学习将分类转换为数字
你会发现很多资源和可能的优化问题。
于 2013-10-22T07:41:03.870 回答