0

为什么即使您计划使用 hadoop 连接器进行云存储,google cloud click to deploy hadoop 工作流程也需要为本地永久磁盘选择大小?默认大小是 500 GB .. 我在想如果它确实需要一些磁盘,它的大小应该小得多。在谷歌云中使用带有 hadoop 的云存储连接器时,是否有推荐的永久磁盘大小?

“在 Google Cloud Platform 上部署 Apache Hadoop

Apache Hadoop 框架支持跨计算机集群对大型数据集进行分布式处理。

Hadoop 将部署在单个集群中。默认部署创建 1 个主虚拟机实例和 2 个工作虚拟机,每个虚拟机具有 4 个 vCPU、15 GB 内存和 500 GB 磁盘。创建一个临时部署协调器 VM 实例来管理集群设置。

Hadoop 集群使用 Cloud Storage 存储桶作为其默认文件系统,可通过 Google Cloud Storage 连接器访问。访问 Cloud Storage 浏览器以查找或创建可在 Hadoop 部署中使用的存储桶。

Google Compute Engine 上的 Apache Hadoop 点击部署 Apache Hadoop Apache Hadoop ZONE us-central1-a WORKER NODE COUNT

CLOUD STORAGE BUCKET 选择一个bucket HADOOP VERSION 1.2.1 MASTER NODE DISK TYPE Standard Persistent Disk MASTER NODE DISK SIZE (GB)

WORKER NODE DISK TYPE 标准持久磁盘 WORKER NODE DISK SIZE (GB) "

4

1 回答 1

2

永久性磁盘 (PD) 的三大用途是:

  • 日志,守护进程和作业(或 YARN 中的容器)
    • 打开调试日志时,这些可能会变得非常大,并且可能导致每秒写入很多
  • MapReduce 洗牌
    • 这些可能很大,但从更高的 IOPS 和吞吐量中受益更多
  • HDFS(图像和数据)

由于目录的布局,永久性磁盘也将用于其他项目,如作业数据(JAR、与应用程序一起分发的辅助数据等),但这些也可以很容易地使用引导 PD。

由于 GCE 根据磁盘大小 [1] 扩展 IOPS 和吞吐量的方式,更大的永久性磁盘几乎总是更好。500G 可能是开始分析您的应用程序和使用的良好起点。如果您不使用 HDFS,发现您的应用程序不会记录太多日志,并且在 shuffle 时不会溢出到磁盘,那么较小的磁盘可能也可以很好地工作。

如果您发现您实际上不需要或不需要任何永久磁盘,那么 bdutil [2] 也可以作为命令行脚本存在,它可以创建具有更多可配置性和可定制性的集群。

  1. https://cloud.google.com/developers/articles/compute-engine-disks-price-performance-and-persistence/
  2. https://cloud.google.com/hadoop/
于 2014-11-24T18:40:12.953 回答