2

这可能不是关于 SO 的问题类型,而只是想听听其他人对在大型企业环境中实施机器学习算法时要考虑哪些因素有什么看法。

我的目标之一是研究可以根据我公司的特定需求量身定制的行业机器学习解决方案。作为我团队中几乎唯一一个拥有数学背景并且之前对机器学习算法进行过一些背景阅读的人,我的任务是解释/比较行业中的机器学习解决方案。根据我通过谷歌搜索收集的信息,似乎:

一个。机器学习和预测分析并不完全相同,那么当一家公司提供预测分析软件与机器学习软件时,有什么本质上的不同呢?(例如 IBM Predictive Analytics 与 Skytree Server)

湾。许多流行的术语经常纠缠在一起,特别是关于大数据、Hadoop、机器学习等。有人能澄清这些术语之间的区别吗?根据我所学到的,我认为概念分离是这样的:

  • 机器学习算法
  • 软件实施
  • 在大型数据集 (Hadoop) 上运行软件的基础架构

C。在实施解决方案时,大多数公司是从解决方案公司聘请顾问来帮助实施算法,还是大多数算法都是预先构建的,任何数据分析师都可以使用它们?或者我们是否需要一个数据科学家团队,即使有软件来运行算法并理解输出?

我知道这是一个相当冗长的问题,但任何信息都会有所帮助。作为唯一一个远程知道这些东西的人有点困难,所以我很想听听更有经验和技术的人怎么说。

4

4 回答 4

1

如果不知道您拥有多少数据以及您公司的需求是什么,就很难回答您的问题。这将帮助您缩小可以满足您需求的解决方案类型。其中,可能会有开源解决方案(也许是 Mahout)、可视化解决方案以及各种帮助您管理数据的解决方案。

于 2013-04-20T06:51:29.080 回答
1

关于大数据/Hadoop/ML: 大数据是定义您需要处理的数据本质的术语。大多数情况下,您可以通过称为 3Vs(数量、品种和速度)的东西来定义大数据与“普通”数据。定义“大数据所需的容量”的阈值不是科学定义的,而是更多地出于可行性考虑:如果您认为数据量在维护常规数据库(MySql 等)方面产生了很大的开销,那么您可能会考虑大数据解决方案。 Hadoop只是设计用于处理大数据的最常用工具。

机器学习是从统计学和计算机科学发展而来的数据科学的子领域。这个想法是让机器在没有明确编程的情况下学习。简而言之,学习方法的目标是概括过去的数据以预测新数据。大数据和机器学习被一起提到,因为机器学习技术的本质是需要数据才能学习。行业中存在大数据趋势,大数据的性质需要为 ML 算法提供大量数据以使其学习(非结构化稀疏数据)。

大多数公司聘请数据科学家来处理这些任务,因为它需要大量的统计、计算机科学、算法等知识,而普通数据分析师并不具备这些知识。大多数数据科学家的工作并不是“运行一个现成的算法”,在你开始考虑算法之前,有很多准备和静态分析数据。你不需要提前雇佣一个团队,但它是一个可以根据需要随着时间逐渐增长的功能。

于 2017-03-16T09:09:50.983 回答
1

关于你问题的第三部分:

学习一些新的和强大的东西总是有一个初始的学习曲线。这同样适用于使用机器学习的数据建模。如果您受到预算等约束的限制,则需要您花一些时间来学习算法功能的基础知识,然后再学习它的实现。但是,如果您受时间限制,您可能需要聘请数据科学家/机器学习工程师团队。但是,从长远来看,如果您开始了解一点机器学习,这总是会有所帮助,这样您就可以轻松地与您的团队协作。

于 2017-04-10T14:32:59.807 回答
0

在回答问题的 C 部分时,机器学习已经为有监督和无监督方法预先构建了算法。要为组织提供解决方案,我们首先必须了解客户的需求,在选择算法之前,我们首先选择监督学习或无监督学习。如果需要监督学习,那么首先我们必须进行特征工程,这是监督学习中非常重要的一部分,它可以从其他学科中找到识别它们的属性。然后我们再根据问题选择分类算法或预测算法。为此,我们有很多算法,但是选择最好的一个,完全取决于您的硬件能力和数据处理能力算法。我们有比较图表。

当我们想要识别数据中的异常或者我们想要对具有相似属性的数据进行聚类时,无监督学习是最好的。

希望这将帮助您理解问题的第三部分。

于 2017-12-30T13:57:48.033 回答