我正在阅读、阅读和阅读有关这项技术的信息,但我仍然不确定它有什么用处。
1)它似乎不能很好地支持顺序作业,大多数作业本质上都是顺序的。- 不是说它不能工作,但让它工作是非常非常笨拙的。
2) 为什么这不能通过负载平衡服务 + 3rd 方/自定义无 sql 解决方案来完成?NoSql 解决方案,例如。Azure Table 或 Federated Databases 等提供类似 HDFS 的功能,而 map reduce 可以在服务内完成。这将提供更好的关注点分离,同时提供更好的访问,例如顺序读取等等。是的,成本可能是个问题,但如果我有 PB 或 2 PB 的数据需要通过 $$$ 来处理,我最不担心的就是成本。
3) 另一件烦人的事情是将代码运送到文件系统上本地运行。我知道这对性能有好处,但从代码组织/复杂性管理角度来看却很糟糕。否则 ORM 不会那么受欢迎,因为在 UDF 和存储过程中编写所有内容要快得多。我以为我们以前走这条路,看看它有多糟糕。
那么,为什么 Hadoop 如此受欢迎却又笨重又慢呢?我不明白。
请赐教。