首先,您的问题需要更清楚地定义大数据的意图。
事实上,大数据是一个流行词,可以指代各种规模的问题。我倾向于将大数据定义为数据大小或计算时间足够大以致“硬件抽象被破坏”的问题类别,这意味着如果没有对计算和内存的密切关注,单个商品机器就无法执行计算.
因此,数据成为大数据的规模阈值尚不清楚,并且对您的实施很敏感。您的算法是否受硬盘带宽的限制?它必须进入记忆吗?您是否尝试避免不必要的二次成本?你有没有努力提高缓存效率等。
从多年运行中型大型机器学习挑战(最多 250 百台商品机器)的经验来看,我坚信许多看似需要分布式基础设施的问题,如果问题表达出来,实际上可以在单个商品机器上运行正确。例如,您提到零售商的大规模数据。几年来我一直在研究这个确切的主题,并且我经常设法使所有计算在一台机器上运行,并提供一些优化。我的公司一直在研究简单的自定义数据格式,它允许将来自一家非常大的零售商的所有数据中的一年存储在 50GB 内,这意味着单个商品硬盘驱动器可以保存 20 年的历史。你可以看看例如:https://github.com/Lokad/lokad-receiptstream
根据我的经验,花时间尝试优化算法和内存是值得的,这样您就可以避免求助于分布式架构。确实,分布式架构带来了三倍的成本。首先,强烈的知识要求。其次,它在代码中带来了很大的复杂性开销。最后,分布式架构具有显着的延迟开销(本地多线程分发除外)。
从从业者的角度来看,能够在 30 秒内执行给定的数据挖掘或机器学习算法是提高效率的关键因素之一。我注意到,当一些计算(无论是顺序的还是分布式的)需要 10 分钟时,我的注意力和效率往往会迅速下降,因为快速迭代和快速测试新想法变得更加复杂。许多分布式框架引入的延迟开销使得您将不可避免地处于这种低效率的场景中。
如果问题的规模如此之大,以至于即使付出很大的努力也无法在单台机器上执行,那么我强烈建议求助于现成的分布式框架,而不是构建自己的框架。最著名的框架之一是 MapReduce 抽象,可通过 Apache Hadoop 获得。Hadoop 可以在 10000 个节点的集群上运行,这可能比您需要的要多得多。如果您不拥有硬件,则可以“租用”Hadoop 集群,例如通过 Amazon MapReduce。
不幸的是,MapReduce 抽象并不适合所有机器学习计算。就机器学习而言,MapReduce 是一个死板的框架,许多案例已证明难以适应该框架或效率低下:
– MapReduce 框架本身与函数式编程有关。Map 过程独立地应用于每个数据块。因此,MapReduce 框架不适用于将 Map 过程应用于某些数据块需要以其他数据块的相同过程的结果为前提的算法。换句话说,当不同数据段之间的计算不是独立的并且强加特定的时间顺序时,MapReduce 框架不适合。
– MapReduce 旨在提供 map 和 reduce 步骤的单一执行,并且不直接提供迭代调用。因此,它不直接适用于暗示迭代处理(期望最大化(EM)、信念传播等)的众多机器学习问题。在 MapReduce 框架中实现这些算法意味着用户必须设计一个解决方案来组织多次迭代的结果检索和调度,以便在前一次迭代的 reduce 阶段完成后启动每次映射迭代,因此每次映射迭代都是使用前一次迭代的 reduce 阶段提供的结果。
– 大多数 MapReduce 实现旨在满足生产需求和稳健性。因此,该框架的主要关注点是处理硬件故障并保证计算结果。因此,这些可靠性约束部分降低了 MapReduce 效率。例如,在某些情况下,计算结果在硬盘上的序列化被证明是相当昂贵的。
– MapReduce 不适合异步算法。
对 MapReduce 框架的质疑导致了更丰富的分布式框架,其中更多的控制权和自由留给了框架用户,代价是该用户更加复杂。在这些框架中,GraphLab 和 Dryad(均基于计算的直接无环图)是众所周知的。
因此,不存在“一刀切”的框架,例如不存在“一刀切”的数据存储解决方案。
要开始使用 Hadoop,您可以查看Tom White 的书 Hadoop: The Definitive Guide
如果您对大规模框架如何适应机器学习要求感兴趣,您可能会对我的博士论文的第二章(英文)感兴趣,可在此处获取:http: //tel.archives-ouvertes.fr/docs/00 /74/47/68/ANNEX/texfiles/PhD%20Main/PhD.pdf
如果您对要处理的特定挑战(算法类型、数据大小、时间和资金限制等)提供更多见解,我们可能会为您提供更具体的答案。
编辑:另一个可能被证明是有趣的参考:扩展机器学习