3

我有一组 ~10K 对象,每个对象都有大约 150 个不同的属性,其中大约四分之一是多值的和/或与其他属性相关的。

我有一组大约 120 个类别,我想将这些对象分类到其中,每个类别都被定义为一个“模板”对象。如果一个实例与模板完全匹配,则该对象显然属于该类别……但是,实际上只有大约 10% 的对象具有完全匹配的模板。因此,我希望能够根据对象与类别的相似性对对象进行评分,并将它们分类为最佳匹配。我还想识别非常相似的对象集群,表明新/改进类别的潜力。

这似乎是 Weka、RapidMiner 或其他机器学习/集群/分类系统的工作。但是,我很难找到该领域的良好介绍材料,因此无法说明在这种情况下使用这些工具需要付出多少努力。鉴于这可能是一个持续的需求,我想使用一些可以让我轻松更改分析方法、权重等的东西。

想法?

4

3 回答 3

1

让我们谈谈..
如果您的职责是对这些对象进行分类,那么您将能够手动对它们发疯!

我正在剖析一个类似的数据集,但总是回到同一点……这些对象〜基本上〜相同。

将它们分开的模糊逻辑是圣杯..但圣杯是模糊的......:(
你能做什么?......给你的老板一些模糊公式?这将持续一段时间..

你可以度过一生试图找到模式,但这可能会让你失败 - 为什么不尝试将视角转移到你可以量化的东西上?专注于输出......

于 2009-06-07T02:48:04.433 回答
0

RapidMiner带有一个集成的在线教程。只需启动 RapidMiner,然后转到“帮助”,然后转到“RapidMiner 教程”。Yon 还可以从 Rapid-I 网页下载免费的 PDF RapidMiner 教程。如果您查看 Rapid-I 网页的服务部分,在 Rapid-I 网页上还有一个免费的小型 RapidMiner 介绍视频,并且有许多 RapidMiner 培训课程。

于 2009-09-06T18:46:57.120 回答
0

你要开发的是基于案例的推理系统,一种知识工程引擎。

查看 myCBR 和 Protege。Protege 是来自斯坦福的本体工程引擎,myCBR 是由 Thomas R. Roth-Berghofer 开发的基于案例的推理系统。

MyCBR 插入 Protege,这将完全符合您的要求。

重要位:

  1. 将您的数据保存为 CSV 格式,并确保它非常干净——如果它不是完美无瑕的,那么 Protege/myCBR 就会出现问题。
  2. 在尝试导入任何内容之前,请阅读 myCBR 的说明,因为如果不这样做,您会感到沮丧。
  3. 导出数据比较困难,但理论上可以将结果导出为 Java 模块。Protege 是开源的,myCBR 也是如此——所以我相信没有许可费。
  4. 您可以为您的类别设置权重,这可能对您有额外的用处。

门徒:

http://protege.stanford.edu/

我的CBR:

http://mycbr-project.net/

于 2012-01-30T18:22:33.930 回答