-3

我正在为我的创业公司启动一项大数据计划。在 2018 年,有任何理由使用 Hadoop,因为 Spark 被吹捧为更快,因为它主要不是将中间数据写入磁盘作为 Hadoop 的 MR。

我意识到 Spark 对 RAM 的需求更高,但这只是一次可以收回成本的 CAPEX 成本吗?

一般来说,除非有遗留项目,否则既然 Spark 可用,为什么还要选择 Hadoop?

会欣赏两者的真实世界比较,陷阱等吗?

或者,是否存在 Hadoop 可以解决但 Spark 不能解决的用例?

——————实际问题在下方评论————</p>

我会使用 YARN 作为资源管理器,使用 HDFS 作为 Spark 的文件系统。还要意识到,当 Spark 与 Hadoop 生态系统相交时,它有点安静。

比较是:

  1. Mapreduce 与 Spark 代码
  2. SparkSQL 与 Hive
  3. 人们也提到了 Pig,但并不是很多人都想学习自定义查询。如果我必须使用 Pig 作为数据科学家,为什么我不使用 Apache NiFi 和 Hadoop?

也不确定 Spark 如何处理以下内容:

  1. 如果数据不适合 RAM,那怎么办?回到基于磁盘的范例(这里不讨论流式用例..)所以不比 Mapreduce 更好吗?Tez 如何让 MR2 变得更好?
  2. Hadoop 3 支持擦除编码以减少数据复制。火花是做什么的?

我不清楚的是过多的重叠选择。例如,仅流式传输具有:

  1. 火花流
  2. 阿帕奇风暴
  3. 阿帕奇萨姆扎
  4. 卡夫卡流
  5. CEP 商业工具。(ORacle CEP、TIBCO 等)

他们中的许多人使用类似于 Spark 核心引擎的 DAG,因此很难从另一个中选择一个。

用例:

  1. 应用程序将数据发送到中间件,直到事件结束。事件可以按周期性或由于满足业务条件而结束。
  2. 中间件必须显示用户从他们的应用实例发送的值的实时添加(简化)。接受中间件是实际值总和的地板,实际值可以更高。计划在这里使用 Kafka 流来让消费者以最小的延迟将所有输入添加到缓存中,该缓存由应用程序轮询以显示当前的附加值。
  3. 中间件记录所有输入
  4. 事件结束后,大数据范例扫描日志数据和数据库记录,通过比较所有 dB 值和日志条目(审计)并将它们与 Kafka 显示值进行比较来获得准确的计数。该方案计算的值为最终值。

设计选择:

  1. 我喜欢 Kafka,因为它解耦了应用程序中间件并且是低延迟高吞吐量消息传递。Streams 代码很容易编写。很高兴有人使用 Spark Streams 或 Apache Storm 或 Apache Samza 来反驳争论?
  2. 应用程序本身是 Tomcat 服务器上的 Java 代码,带有 iOS/Android 客户端的 REST 端点。由于附加值的显式活跃性,不进行客户端缓存。
4

2 回答 2

3

您将 Hadoop 与 MapReduce 混淆了。Hadoop 是 MapReduce、HDFS 和 YARN 的生态系统。

首先,Spark 没有文件系统。在我的书中,这主要是为什么 Hadoop 很好。当然,您可以使用 S3 或许多其他云存储,或 Ceph 或 GlusterFS 等裸机数据存储,但根据我的研究,HDFS 在处理数据时是迄今为止最快的。

也许你不熟悉 YARN 提供的机架局部性的概念。如果您将 Spark Standalone 模式与任何未安装在 Spark 执行器下的文件系统一起使用,那么您的所有数据请求都需要通过网络连接拉取,因此会导致网络饱和并导致瓶颈,无论内存如何。与在 YARN 节点管理器上运行的 Spark 执行器相比,HDFS 数据节点理想地也是节点管理器。

一个类似的问题——人们说 Hive 很慢,SparkSQL 更快。好吧,如果您使用 MapReduce 而不是 Tez 或 Spark 执行模式运行 Hive,那就是真的。

现在,如果您想要流式处理和实时事件,而不是通常与 Hadoop 相关的批处理世界。您可能想研究 SMACK 堆栈。

更新

Pig 作为数据科学家,为什么我不使用 Apache NiFi 和 Hadoop

Pig无法与 NiFi 相提并论。

您可以使用 NiFi;没有什么能阻止你。它将比 Spark 微批处理更接近实时运行。它是与 Kafka 配对的好工具。

过多的重叠选择

是的,你甚至没有把它们都列出来……这取决于你公司的一些大数据架构师来想出一个解决方案。您会发现 Confluent 的供应商支持主要针对 Kafka。我还没有看到他们过多地谈论 Samza。Hortonworks 将支持 Storm、Nifi 和 Spark,但如果您想要 KSQL 等花哨的功能,它们不会运行最新版本的 Kafka。Streamsets 是一家类似的公司,提供与 NiFi 竞争的工具,该工具由具有其他批处理/流 Apache 项目背景的员工组成。

据我所知,Storm 和 Samza 是做同一件事的两种方式。我认为 Flink 比 Storm 对程序员更友好。我没有使用 Samza 的经验,但我与主要使用 Kafka Streams 而不是它的人密切合作。而且 Kafka Streams 不是基于 DAG - 它只是一个高级 Kafka 库,可嵌入到任何 JVM 应用程序中。

如果数据不适合 RAM,那怎么办?

默认情况下,它会溢出到磁盘...如果您不希望磁盘被触摸,Spark 可以配置参数。在这种情况下,你的工作显然会更快地死于 OOM。

Tez 如何让 MR2 变得更好?

Tez 不是 MR。它像 Spark 一样创建更优化的 DAG。去阅读它

Hadoop 3 支持擦除编码以减少数据复制。火花是做什么的?

Spark 没有文件系统。我们已经介绍了这一点。擦除编码主要用于静态数据,而不是处理期间的数据。我实际上还不知道 Spark 是否支持 Hadoop 3。

应用程序本身是 Tomcat 服务器上的 Java 代码,带有 iOS/Android 客户端的 REST 端点

就个人而言,我会在这里使用 Kafka Streams,因为 1)您已经在使用 Java 2)它是您代码中的一个独立线程,可让您在没有 Hadoop/YARN 或 Spark 集群的情况下从 Kafka 读取/发布数据。目前尚不清楚您的问题与您列出的客户端-服务器架构中的 Hadoop 有什么关系,但您可以随意将 Kafka 主题中的附加行连接到您选择的数据库/分析引擎。Kafka Connect 框架有许多连接器供您选择

您还可以将 NiFi 用作您的移动 REST API,以仅 ExposeHTTP 并向其发送请求,然后根据数据中的属性路由流。然后,操作并发布到 Kafka 以及其他系统。

于 2018-01-05T00:36:22.207 回答
0

Spark 和 Hadoop 在解决 MapReduce 问题的方式上非常相似。

如果您谈论 HDFS 的观点,Hadoop 是非常相关的。HDFS 是一种众所周知的大数据存储解决方案。但是您的问题是关于 MapReduce。

如果您谈论的是具有真正良好的内存和网络吞吐量配置的好机器,Spark 是最佳选择。但是我们知道这种机器很昂贵,有时您最好的选择是使用 Hadoop 来处理您的数据。Spark 很棒而且速度很快,但是如果你没有一个好的集群,有时你会因为内存问题而发疯,以防内存中容纳太多数据。在这种情况下,Hadoop 会更好。但这个问题年复一年地不那么重要。

所以hadoop在这里com是对Spark的补充,Hadoop不仅仅是MapReduce,Hadoop是一个生态系统。Spark 没有分布式文件系统,要让 Spark 运行良好,您需要一个,Spark 没有资源管理器,Hadoop 称为 Yarn。而集群模式下的 Spark 需要一个资源管理器。

结论

Hadoop 作为一个生态系统仍然是相关的,但我只能说它不再被使用了。

于 2018-01-04T23:20:46.230 回答