machine-learning - 机器学习与大数据

Question

一开始，我想描述一下我目前的职位和我想达到的目标。

我是一名研究机器学习的研究员。到目前为止，已经完成了几门涵盖机器学习算法和社交网络分析的理论课程，因此获得了一些对实现机器学习算法和输入真实数据有用的理论概念。

在简单的示例中，算法运行良好并且运行时间是可以接受的，而如果尝试在我的 PC 上运行算法，大数据代表一个问题。关于软件，我有足够的经验来实现文章中的任何算法，或者使用任何语言或 IDE 设计我自己的算法（到目前为止已经使用了 Matlab、Java 和 Eclipse、.NET ......）但到目前为止还没有太多的设置经验向上的基础设施。我已经开始学习 Hadoop、NoSQL 数据库等，但考虑到学习时间限制，我不确定哪种策略是最好的。

最终的目标是能够建立一个分析大数据的工作平台，专注于实现我自己的机器学习算法，并将所有这些放在一起投入生产，准备通过处理大数据来解决有用的问题。

由于主要关注实现机器学习算法，我想问一下是否有现成的运行平台，提供足够的 CPU 资源来输入大数据，上传自己的算法并简单地处理数据，而不考虑分布式处理。

尽管如此，无论是否存在这样的平台，我都希望获得足够大的图景，以便能够在一个团队中工作，该团队可以将根据特定客户需求定制的整个系统投入生产。例如，零售商想要分析日常采购，因此必须将所有日常记录上传到一些基础设施，这些基础设施足以使用自定义机器学习算法处理数据。

将以上所有内容归结为一个简单的问题：如何针对现实生活中的问题设计一个定制的数据挖掘解决方案，主要关注机器学习算法并将其投入生产，如果可能的话，使用现有的基础设施，如果没有，设计分布式系统（通过使用 Hadoop 或任何框架）。

对于书籍或其他有用资源的任何建议或建议，我将非常感谢。

score 26 · Accepted Answer

首先，您的问题需要更清楚地定义大数据的意图。

事实上，大数据是一个流行词，可以指代各种规模的问题。我倾向于将大数据定义为数据大小或计算时间足够大以致“硬件抽象被破坏”的问题类别，这意味着如果没有对计算和内存的密切关注，单个商品机器就无法执行计算.

因此，数据成为大数据的规模阈值尚不清楚，并且对您的实施很敏感。您的算法是否受硬盘带宽的限制？它必须进入记忆吗？您是否尝试避免不必要的二次成本？你有没有努力提高缓存效率等。

从多年运行中型大型机器学习挑战（最多 250 百台商品机器）的经验来看，我坚信许多看似需要分布式基础设施的问题，如果问题表达出来，实际上可以在单个商品机器上运行正确。例如，您提到零售商的大规模数据。几年来我一直在研究这个确切的主题，并且我经常设法使所有计算在一台机器上运行，并提供一些优化。我的公司一直在研究简单的自定义数据格式，它允许将来自一家非常大的零售商的所有数据中的一年存储在 50GB 内，这意味着单个商品硬盘驱动器可以保存 20 年的历史。你可以看看例如：https://github.com/Lokad/lokad-receiptstream

根据我的经验，花时间尝试优化算法和内存是值得的，这样您就可以避免求助于分布式架构。确实，分布式架构带来了三倍的成本。首先，强烈的知识要求。其次，它在代码中带来了很大的复杂性开销。最后，分布式架构具有显着的延迟开销（本地多线程分发除外）。

从从业者的角度来看，能够在 30 秒内执行给定的数据挖掘或机器学习算法是提高效率的关键因素之一。我注意到，当一些计算（无论是顺序的还是分布式的）需要 10 分钟时，我的注意力和效率往往会迅速下降，因为快速迭代和快速测试新想法变得更加复杂。许多分布式框架引入的延迟开销使得您将不可避免地处于这种低效率的场景中。

如果问题的规模如此之大，以至于即使付出很大的努力也无法在单台机器上执行，那么我强烈建议求助于现成的分布式框架，而不是构建自己的框架。最著名的框架之一是 MapReduce 抽象，可通过 Apache Hadoop 获得。Hadoop 可以在 10000 个节点的集群上运行，这可能比您需要的要多得多。如果您不拥有硬件，则可以“租用”Hadoop 集群，例如通过 Amazon MapReduce。

不幸的是，MapReduce 抽象并不适合所有机器学习计算。就机器学习而言，MapReduce 是一个死板的框架，许多案例已证明难以适应该框架或效率低下：

– MapReduce 框架本身与函数式编程有关。Map 过程独立地应用于每个数据块。因此，MapReduce 框架不适用于将 Map 过程应用于某些数据块需要以其他数据块的相同过程的结果为前提的算法。换句话说，当不同数据段之间的计算不是独立的并且强加特定的时间顺序时，MapReduce 框架不适合。

– MapReduce 旨在提供 map 和 reduce 步骤的单一执行，并且不直接提供迭代调用。因此，它不直接适用于暗示迭代处理（期望最大化（EM）、信念传播等）的众多机器学习问题。在 MapReduce 框架中实现这些算法意味着用户必须设计一个解决方案来组织多次迭代的结果检索和调度，以便在前一次迭代的 reduce 阶段完成后启动每次映射迭代，因此每次映射迭代都是使用前一次迭代的 reduce 阶段提供的结果。

– 大多数 MapReduce 实现旨在满足生产需求和稳健性。因此，该框架的主要关注点是处理硬件故障并保证计算结果。因此，这些可靠性约束部分降低了 MapReduce 效率。例如，在某些情况下，计算结果在硬盘上的序列化被证明是相当昂贵的。

– MapReduce 不适合异步算法。

对 MapReduce 框架的质疑导致了更丰富的分布式框架，其中更多的控制权和自由留给了框架用户，代价是该用户更加复杂。在这些框架中，GraphLab 和 Dryad（均基于计算的直接无环图）是众所周知的。

因此，不存在“一刀切”的框架，例如不存在“一刀切”的数据存储解决方案。

要开始使用 Hadoop，您可以查看Tom White 的书 Hadoop: The Definitive Guide

如果您对大规模框架如何适应机器学习要求感兴趣，您可能会对我的博士论文的第二章（英文）感兴趣，可在此处获取：http: //tel.archives-ouvertes.fr/docs/00 /74/47/68/ANNEX/texfiles/PhD%20Main/PhD.pdf

如果您对要处理的特定挑战（算法类型、数据大小、时间和资金限制等）提供更多见解，我们可能会为您提供更具体的答案。

编辑：另一个可能被证明是有趣的参考：扩展机器学习

score 7 · Accepted Answer

我还必须实现一些数据挖掘算法才能使用 BigData，最后我使用了 Hadoop。我不知道您是否熟悉 Mahout ( http://mahout.apache.org/ )，它已经有几种可供 Hadoop 使用的算法。

尽管如此，如果您想实现自己的算法，您仍然可以将其适应 Hadoop 的 MapReduce 范式并获得良好的结果。这是一本关于如何将人工智能算法应用于 MapReduce 的优秀书籍：

海量数据集的挖掘 - http://infolab.stanford.edu/~ullman/mmds.html

score 2 · Accepted Answer

这似乎是一个老问题。但是，考虑到您的用例，专注于大数据领域机器学习的主要框架是 Mahout、Spark (MLlib)、H2O 等。但是，要在大数据上运行机器学习算法，您必须将它们转换为基于 Map Reduce 范式的并行程序。这是一篇不错的文章，简要介绍了主要（不是全部）大数据框架：

http://www.codophile.com/big-data-frameworks-every-programmer-should-know/

我希望这将有所帮助。

machine-learning - 机器学习与大数据

3 回答 3

Related

Reference