我想知道,如果有人有一个很好的方法来匹配基于分类(非序数)变量的两个观察值。我正在进行的练习是根据兴趣和其他特征(非序数或序数)分类变量将学员与导师匹配。
可变 的可能值
运动 “棒球”、“足球”、“篮球”(……)
婚姻状况 “单身,没有孩子”,“单身,年幼的孩子”,“已婚,没有孩子”,“已婚,年幼的孩子”,(...)
工作级别 1、2、3、4、5、6
行业 “零售”、“金融”、“批发”、(……)
如果任何变量对人很重要,也有指标。我理解,我可以将婚姻状况强制转换为一两个序数变量,例如(“单身”、“已婚”、“寡妇”)和(“没有孩子”、“年幼的孩子”、“成年的孩子”)。但我不知道如何处理工业和体育,因为它们没有逻辑顺序。我的计划最初是使用聚类技术,根据最短距离或给定点找到导师和被指导者集之间的匹配。但这会忽略人们可以决定变量对他们是否重要的事实(“是”,“否”)。现在,我正在考虑通过使用嵌套的 IF 语句来检查是否存在基于重要性和实际值的完美匹配来对其进行蛮力逻辑。ELSE 检查是否有匹配的记录包含所有匹配项,但只有一个类别等。
创建两个变量,一个用于重要性序列(例如:“YesNoYesNoNo”)和一个用于兴趣(例如“BasketballSingleNokids6Retail”),然后使用模糊匹配是否有意义?
此致,