hadoop - 为什么现实世界的 MapReduce 作业往往具有非常小的数据集大小？

Question

我读过的所有论文都表明，现实世界的 mapreduce 作业倾向于在相对较小的数据集大小上运行（主要是 map，绝大多数作业倾向于在 KB-16GB 上运行）。如果在生产领域工作的任何人都可以谈论较小的数据集如何以及为什么会出现这种情况，我会理解得更好。对于小型数据集（<128MB），文件是否倾向于碎片化或连续，因为它对拆分和生成的地图任务数量有一定影响？如果 hadoop 让 mapreduce 只对文件的一部分进行操作？

任何指针都非常感谢。

score 0 · Accepted Answer

通常使用小数据来快速检查逻辑/代码是否足够好。评估必须一次又一次地进行，直到获得一个好的解决方案。

我在生产中工作，我们使用小数据进行单元测试（MB 的顺序），我们有大小为 10-30 gig 的样本数据集，用于在开发端进行集成测试。但考虑到产品服务器上处理的实际数据（以 TB 为单位），这太小了。与 prod 环境相比，开发环境的容量较低，因此我们不能指望 TB 级的数据在其上平稳运行……而且由于每次发布都必须执行它，因此它非常耗时。

转向技术论文：作者想要真实数据：也倾向于他们试图解决的特定用例。很难获得专注于他们的问题的大量数据集（10-100 gigs）。我见过很少有论文使用大量数据集，但那些属于大公司的研究人员可以轻松获取这些数据。

hadoop - 为什么现实世界的 MapReduce 作业往往具有非常小的数据集大小？

1 回答 1

Related

Reference