cluster-analysis - 寻找基于对象属性对对象进行分类的方法

Question

我有一组 ~10K 对象，每个对象都有大约 150 个不同的属性，其中大约四分之一是多值的和/或与其他属性相关的。

我有一组大约 120 个类别，我想将这些对象分类到其中，每个类别都被定义为一个“模板”对象。如果一个实例与模板完全匹配，则该对象显然属于该类别……但是，实际上只有大约 10% 的对象具有完全匹配的模板。因此，我希望能够根据对象与类别的相似性对对象进行评分，并将它们分类为最佳匹配。我还想识别非常相似的对象集群，表明新/改进类别的潜力。

这似乎是 Weka、RapidMiner 或其他机器学习/集群/分类系统的工作。但是，我很难找到该领域的良好介绍材料，因此无法说明在这种情况下使用这些工具需要付出多少努力。鉴于这可能是一个持续的需求，我想使用一些可以让我轻松更改分析方法、权重等的东西。

想法？

score 1 · Accepted Answer

让我们谈谈..
如果您的职责是对这些对象进行分类，那么您将能够手动对它们发疯！

我正在剖析一个类似的数据集，但总是回到同一点……这些对象〜基本上〜相同。

将它们分开的模糊逻辑是圣杯..但圣杯是模糊的......：（
你能做什么？......给你的老板一些模糊公式？这将持续一段时间..

你可以度过一生试图找到模式，但这可能会让你失败 - 为什么不尝试将视角转移到你可以量化的东西上？专注于输出......

score 0 · Accepted Answer

RapidMiner带有一个集成的在线教程。只需启动 RapidMiner，然后转到“帮助”，然后转到“RapidMiner 教程”。Yon 还可以从 Rapid-I 网页下载免费的 PDF RapidMiner 教程。如果您查看 Rapid-I 网页的服务部分，在 Rapid-I 网页上还有一个免费的小型 RapidMiner 介绍视频，并且有许多 RapidMiner 培训课程。

score 0 · Accepted Answer

你要开发的是基于案例的推理系统，一种知识工程引擎。

查看 myCBR 和 Protege。Protege 是来自斯坦福的本体工程引擎，myCBR 是由 Thomas R. Roth-Berghofer 开发的基于案例的推理系统。

MyCBR 插入 Protege，这将完全符合您的要求。

重要位：

将您的数据保存为 CSV 格式，并确保它非常干净——如果它不是完美无瑕的，那么 Protege/myCBR 就会出现问题。
在尝试导入任何内容之前，请阅读 myCBR 的说明，因为如果不这样做，您会感到沮丧。
导出数据比较困难，但理论上可以将结果导出为 Java 模块。Protege 是开源的，myCBR 也是如此——所以我相信没有许可费。
您可以为您的类别设置权重，这可能对您有额外的用处。

门徒：

http://protege.stanford.edu/

我的CBR：

http://mycbr-project.net/

cluster-analysis - 寻找基于对象属性对对象进行分类的方法

3 回答 3

Related

Reference