13

我正在寻找一些关于其他人如何使用Hadoop或其他类似 MapReduce 的技术的一般信息。一般来说,我很好奇您是在编写 MR 应用程序来处理现有数据集(如 Web 服务器日志文件),还是在编写生成和处理新数据集的应用程序?

编辑: 后续问题

(1) 您是否曾经针对其他 MR 程序生成的数据执行 MR 程序?

(2) 您是否需要使用 MR 修改现有数据集?

(3) 您是否曾与其他开发人员共享您的数据集?

4

5 回答 5

10

查看PowerdBy Hadoop wiki,了解从 Facebook 到 FOX News 的所有示例以及他们如何使用它。

于 2008-12-02T13:31:46.030 回答
2

我正在分析现有的数据集,在我的例子中是程序员活动的痕迹。

于 2008-12-01T16:19:52.680 回答
1

我使用 hadoop 作为nutch的一部分,并用于构建/分析网络图和文本

(1) 很多任务不能一次性完成,所以需要对 MR 生成的数据运行 MR 是必不可少的。

(2)nutch爬取时,有需要对crawlerdb或其他数据进行过滤或规范化的情况。(所以,是的)

(3) 到目前为止,主要是转储或某种结果。到目前为止,还不是“原生”的 MR 数据。

于 2008-12-08T09:15:06.573 回答
1

一般来说,我很好奇您是在编写 MR 应用程序来处理现有数据集(如 Web 服务器日志文件),还是在编写生成和处理新数据集的应用程序?

我对 MR 应用程序所做的工作涉及处理现有数据集,这些数据集可用于生成新数据集,这...

(1) 您是否曾经针对其他 MR 程序生成的数据执行 MR 程序?

...是的,我愿意。这称为链接 Map/Reduce 操作,您可以在其中按顺序链接多个 map 和 reduce 作业。

(2) 您是否需要使用 MR 修改现有数据集?

MR 的想法是将现有数据集放入其中,而不必真正修改它来处理和分析其中的信息。我必须这样做的唯一情况是将数据集拆分为包裹。

(3) 您是否曾与其他开发人员共享您的数据集?

活跃的 MR 应用程序中涉及的许多代码和我的一样被认为是专有的,因此与其他开发人员共享它是一个问题。如果您希望示例数据集与我推荐的书籍一起使用,我推荐的是 Pro Hadoop (Venner)、Hadoop in Action (Lam) 和 Hadoop the Definitive Guide (White)。

于 2011-07-29T16:50:12.150 回答
0

到目前为止,我的两个用途是分析大型行为数据集(从网络、手机等收集)和并行处理大型问题的方法(例如,使用遗传算法在 NP 完全问题空间中找到局部最优值)。

在一般情况下,MR 流程是多阶段的,因此我经常针对早期 MR 阶段生成的数据运行。

于 2009-11-20T19:37:26.490 回答