我有一组 ~10K 对象,每个对象都有大约 150 个不同的属性,其中大约四分之一是多值的和/或与其他属性相关的。
我有一组大约 120 个类别,我想将这些对象分类到其中,每个类别都被定义为一个“模板”对象。如果一个实例与模板完全匹配,则该对象显然属于该类别……但是,实际上只有大约 10% 的对象具有完全匹配的模板。因此,我希望能够根据对象与类别的相似性对对象进行评分,并将它们分类为最佳匹配。我还想识别非常相似的对象集群,表明新/改进类别的潜力。
这似乎是 Weka、RapidMiner 或其他机器学习/集群/分类系统的工作。但是,我很难找到该领域的良好介绍材料,因此无法说明在这种情况下使用这些工具需要付出多少努力。鉴于这可能是一个持续的需求,我想使用一些可以让我轻松更改分析方法、权重等的东西。
想法?