2

如果我有大量描述物理“事物”的数据,我该如何衡量这些数据与它应该代表的“事物”的匹配程度?

一个例子是,如果我有一个装有 12 个小部件的板条箱,并且我知道每个小部件重 1 磅,那么应该有一些数据质量“检查”以确保箱子重 13 磅。

另一个例子是,如果我有一盏灯和一个代表该灯的图像,它应该看起来像一盏灯。也许图像尺寸应该与灯尺寸具有相同的比例。

除了图像,我的数据是 99% 的文本(包括高度、宽度、颜色……)。

我在学校学习过人工智能,但除此之外几乎没有做过什么。

标准的人工智能技术是可行的吗?如果是这样,我如何将问题映射到算法?某些语言在这方面是否比其他语言更容易?他们有更好的图书馆吗?

谢谢。

4

3 回答 3

1

您的问题有点开放式,但听起来您想要的是机器学习领域中所谓的“分类器” 。

通常,分类器接受一个输入并对其进行“分类”,即:确定对象的类别。许多分类器提供了这种确定的概率,有些分类器甚至可能返回多个类别,每个类别都有概率。

分类器的一些示例是贝叶斯网络、神经网络、决策列表和决策树。贝叶斯网络通常用于垃圾邮件分类。电子邮件有可能被归类为“垃圾邮件”或“非垃圾邮件”。

对于您的问题,您希望将您的对象分类为“高质量”或“非高质量”。

您需要的第一件事是一堆训练数据。也就是说,您已经知道正确分类的一组对象。获得这一点的一种方法是获取一堆对象并手动对其进行分类。如果一个人无法分类的物体太多,您可以将它们提供给Mechanical Turk

获得训练数据后,您将构建分类器。您需要弄清楚哪些属性对您的分类很重要。你可能需要做一些实验来看看什么效果很好。然后你让你的分类器从你的训练数据中学习。

一种经常用于测试的方法是将训练数据分成两组。使用其中一个子集训练您的分类器,然后查看它对另一个(通常较小)子集的分类效果如何。

于 2009-05-14T21:04:09.063 回答
1

人工智能是一条路,自然智能是另一条路。

您的挑战与亚马逊的 Mechanical Turk 完美匹配。将您的数据空间划分为极小的可验证原子,并将它们分配为 Mechanical Turk 上的 HIT。有一些重叠,让自己对 HIT 答案的一致性有一种感觉。

有一家商店有一大堆需要按相似度分组的组件 CAD 图纸。他们将其分解并在 Mechanical Turk 上放开,取得了非常令人满意的结果。我可以用谷歌搜索几个小时,但再也找不到那个链接了。

有关相关论坛帖子,请参见此处

于 2009-05-14T21:09:54.900 回答
0

这是一个艰难的答案。例如,什么定义了一盏灯?我可以用谷歌搜索一些看起来很疯狂的灯的图片。甚至,查找灯的定义(http://dictionary.reference.com/dic?q=lamp)。对灯的外观没有物理要求。这就是人工智能问题的症结所在。

至于数据,您可以在项目上设置单元测试,以确保 12 个 widget() 在 WidetBox() 中的重量小于 13 磅。无论如何,您需要手头有数据才能测试类似的东西。

我希望我能够稍微回答你的问题。它有点模糊,我的答案很广泛,但希望它至少能给你一个好的方向。

于 2009-05-14T20:13:29.403 回答