23

人们经常抛出 IR、ML 和数据挖掘这些术语,但我注意到它们之间有很多重叠之处。

从在这些领域有经验的人看来,这两者之间的界限究竟是什么?

4

4 回答 4

26

这只是一个人的观点(正式接受过 ML 培训);其他人可能对事情的看法完全不同。

机器学习可能是这三个术语中最同质的,也是应用最一致的——它仅限于模式提取(或模式匹配)算法本身。

在您提到的术语中,“机器学习”是学术部门最常用于描述其课程、学术部门和研究计划的术语,也是学术期刊和会议记录中最常用的术语。ML 显然是您提到的术语中最不依赖上下文的。

信息检索数据挖掘更接近于描述完整的商业流程——即从用户查询到相关结果的检索/交付。ML 算法可能在该流程中的某个地方,并且在更复杂的应用程序中,通常是,但这不是正式的要求。此外,术语数据挖掘似乎通常是指在大数据(即> 2BG)上应用某些处理流程,因此通常在该工作流程的前端附近包括一个分布式处理(map-reduce)组件。

因此,信息检索 (IR) 和数据挖掘 (DM) 与基础设施算法中的机器学习 (ML) 相关一种方式。换句话说,机器学习是用于解决信息检索问题的工具的一种来源。但这只是工具的一种来源。但是 IR 不依赖于 ML——例如,一个特定的 IR 项目可能是存储和快速检索响应用户搜索查询 IR 的全索引数据,其关键是优化数据流的性能,即,从查询到将搜索结果传递给用户的往返过程。预测或模式匹配在这里可能没有用。同样,DM 项目可能会为预测引擎使用 ML 算法,但 DM 项目更有可能还关注整个处理流程——例如,

最后考虑 Netflix 奖。这场比赛只针对机器学习——重点是预测算法,事实证明只有一个成功标准:算法返回的预测的准确性。想象一下,如果“Netflix Prize”被重新命名为数据挖掘竞赛。成功标准几乎肯定会扩展到更准确地访问算法在实际商业环境中的性能——例如,可能会考虑整体执行速度(向用户提供建议的速度)以及准确性。

“信息检索”和“数据挖掘”这两个术语现在已成为主流,尽管有一段时间我只在我的工作描述或供应商文献中看到这些术语(通常在“解决方案”一词旁边)。在我的雇主,我们最近聘请了一位“数据挖掘”分析师。我不知道他具体做什么,但他每天都打领带上班。

于 2010-08-06T10:29:23.943 回答
19

我会尝试如下画线:

信息检索是关于尽快找到已经成为数据一部分的内容。

机器学习是将现有知识尽可能准确地推广到新数据的技术。

数据挖掘主要是发现隐藏在数据中的东西,你以前知道,尽可能“新”。

他们相交并经常使用彼此的技术。DM 和 IR 都使用索引结构来加速流程。DM 使用了很多 ML 技术,例如数据集中对泛化有用的模式可能是一种新知识。

它们通常很难分开。帮自己一个忙,不要只追求流行语。在我看来,区分它们的最佳方法是通过它们的意图,如上所述:查找数据,推广到新数据,查找现有数据的新属性。

于 2012-03-09T07:19:40.370 回答
4

您还可以添加模式识别和(计算?)统计作为与您提到的三个重叠的另外几个领域。

我想说他们之间没有明确的界限。他们的不同之处在于他们的历史和他们的重点。统计学强调数学的严谨性,数据挖掘强调扩展到大型数据集,ML 介于两者之间。

于 2010-08-05T18:13:38.797 回答
0

数据挖掘是关于发现隐藏的模式或未知的知识,可用于人们的决策。

机器学习是关于学习模型以对新对象进行分类。

于 2011-11-16T00:44:16.673 回答