9

在数据挖掘领域,是否有一个特定的子学科称为“相似性”?如果是,它处理什么。任何示例、链接、参考资料都会有所帮助。

此外,作为该领域的新手,我想了解社区对数据挖掘和人工智能之间的密切关系的看法。它们是同义词吗,一个是另一个的子集吗?

提前感谢您分享您的知识。

4

5 回答 5

9

在数据挖掘领域,是否有一个特定的子学科称为“相似性”?

是的。数据挖掘和机器学习中有一个特定的子领域称为度量学习,旨在学习数据实例之间更好的距离度量。

您知道以下任何概念吗?

欧几里得距离

马氏距离

皮尔逊相关

余弦相似度这里

内核函数

了解了这些之后,你就会知道什么是“相似”了。

我希望社区就数据挖掘和人工智能之间的密切相关发表意见。

很难区分什么是数据挖掘,什么是人工智能。当您是该领域的新手时,不要讨论这个问题。当你学习了数据挖掘中的 10 种算法并阅读了一些 AI 书籍时,你就会知道其中的区别和关系。

于 2010-05-22T09:24:23.257 回答
2

“相似性”的适当定义(您提取哪些特征,之后如何处理它们)几乎是聚类的定义,而聚类是数据挖掘的一个相当广泛的子领域。

如果您将 AI 的标准愤世嫉俗定义为我们无法很好解决的一组问题(实际上,我们无法很好地指定开始解决问题),那么一旦您正在寻找的空间,数据挖掘就会陷入其中因为相关性开始大于您的算法可以处理的范围。

于 2010-05-22T09:20:55.980 回答
2

只是为了强调“相似性”概念的重要性。

数据挖掘(人工智能、机器学习、建模等)是将某些功能发挥到最大值或最小值。采用最好的优化/学习/挖掘算法和错误的函数,你会得到一个完整的垃圾。请注意,我们使用“value”而不是“valueS”。那是因为没有(据我所知)算法(计算或其他)能够优化多个值。然而,在我们的宇宙中,复杂的优化比一维优化更频繁(我们想要富有、年轻和健康)。这就是为什么存在大量相似性和其他评分功能的原因。这就是为什么他们都不是“正确的”

于 2011-06-28T05:56:58.470 回答
1

相似性是一个概念,用于多种数据挖掘任务,例如聚类、分类。根据您拥有的数据类型,您可以使用不同的相似度度量,例如文本文档的余弦相似度、欧几里得距离等

于 2011-11-29T03:04:08.767 回答
0

数据挖掘中使用了许多相似性度量。用于文本挖掘,寻找文本中的相似度,余弦相似度,jaccard相似度广泛使用

供参考,您可以查看 raghavan 和 amnnings 信息检索书

于 2017-04-27T07:26:55.710 回答