在数据挖掘领域,是否有一个特定的子学科称为“相似性”?如果是,它处理什么。任何示例、链接、参考资料都会有所帮助。
此外,作为该领域的新手,我想了解社区对数据挖掘和人工智能之间的密切关系的看法。它们是同义词吗,一个是另一个的子集吗?
提前感谢您分享您的知识。
在数据挖掘领域,是否有一个特定的子学科称为“相似性”?如果是,它处理什么。任何示例、链接、参考资料都会有所帮助。
此外,作为该领域的新手,我想了解社区对数据挖掘和人工智能之间的密切关系的看法。它们是同义词吗,一个是另一个的子集吗?
提前感谢您分享您的知识。
“相似性”的适当定义(您提取哪些特征,之后如何处理它们)几乎是聚类的定义,而聚类是数据挖掘的一个相当广泛的子领域。
如果您将 AI 的标准愤世嫉俗定义为我们无法很好解决的一组问题(实际上,我们无法很好地指定开始解决问题),那么一旦您正在寻找的空间,数据挖掘就会陷入其中因为相关性开始大于您的算法可以处理的范围。
只是为了强调“相似性”概念的重要性。
数据挖掘(人工智能、机器学习、建模等)是将某些功能发挥到最大值或最小值。采用最好的优化/学习/挖掘算法和错误的函数,你会得到一个完整的垃圾。请注意,我们使用“value”而不是“valueS”。那是因为没有(据我所知)算法(计算或其他)能够优化多个值。然而,在我们的宇宙中,复杂的优化比一维优化更频繁(我们想要富有、年轻和健康)。这就是为什么存在大量相似性和其他评分功能的原因。这就是为什么他们都不是“正确的”
相似性是一个概念,用于多种数据挖掘任务,例如聚类、分类。根据您拥有的数据类型,您可以使用不同的相似度度量,例如文本文档的余弦相似度、欧几里得距离等
数据挖掘中使用了许多相似性度量。用于文本挖掘,寻找文本中的相似度,余弦相似度,jaccard相似度广泛使用
供参考,您可以查看 raghavan 和 amnnings 信息检索书