0

我正在阅读、阅读和阅读有关这项技术的信息,但我仍然不确定它有什么用处。

1)它似乎不能很好地支持顺序作业,大多数作业本质上都是顺序的。- 不是说它不能工作,但让它工作是非常非常笨拙的。

2) 为什么这不能通过负载平衡服务 + 3rd 方/自定义无 sql 解决方案来完成?NoSql 解决方案,例如。Azure Table 或 Federated Databases 等提供类似 HDFS 的功能,而 map reduce 可以在服务内完成。这将提供更好的关注点分离,同时提供更好的访问,例如顺序读取等等。是的,成本可能是个问题,但如果我有 PB 或 2 PB 的数据需要通过 $$$ 来处理,我最不担心的就是成本。

3) 另一件烦人的事情是将代码运送到文件系统上本地运行。我知道这对性能有好处,但从代码组织/复杂性管理角度来看却很糟糕。否则 ORM 不会那么受欢迎,因为在 UDF 和存储过程中编写所有内容要快得多。我以为我们以前走这条路,看看它有多糟糕。

那么,为什么 Hadoop 如此受欢迎却又笨重又慢呢?我不明白。

请赐教。

4

1 回答 1

1

代码运行位置如何影响代码组织/管理?它是透明的;这才是重点。

当然 Hadoop 的功能可以使用一堆其他技术的组合来重新创建——M/R 是一种方式,而不是堆栈。

作业管理是通过各种应用程序处理的。

您回答了您自己关于“第 3 方/自定义”解决方案的问题:关键是它是一个框架,可用于消除大部分或所有非数据/应用程序特定的开发。

我也从未经历过“$$$ 是我最不担心的事情”的环境。

我不清楚您对此的实际反对意见是什么。

于 2012-04-07T19:18:34.610 回答