2

GCP dataproc - 当您终止 dataproc 集群时,HDFS 会自动删除。即使您删除了不应删除 HDFS 的 dataproc 集群,如何使其持久化 HDFS?可能吗?

4

3 回答 3

1

可以使用谷歌云存储。用于此的连接器默认安装在 Dataproc 中。与 HDFS 不同,当您关闭 Hadoop 集群时,您可以继续访问 Cloud Storage 中的数据。如何使用云存储连接器

于 2021-05-12T07:28:06.627 回答
0

当您在 GCP 中创建 dataproc 集群时,它使用 Hadoop 分布式文件系统 (HDFS) 进行存储。

根据您在终止 dataproc 集群时的声明,您的 HDFS 会自动删除,如果您使用的是 VM 磁盘,则会发生这种情况。

HDFS 数据和中间 shuffle 数据存储在 VM 启动磁盘上,如果没有提供本地 SSD,则这些磁盘是 Persistent Disk。

如果本地 SSD 已附加,HDFS 将保留在 SSD 中并且不会被删除。删除集群时会删除 VM 引导磁盘。

您还可以查看此文档以避免在 dataproc 中使用 VM 磁盘丢失 HDFS。

Dataproc HDFS

Dataproc 中的本地 SSD

于 2021-05-12T06:14:56.550 回答
0
  • 查看可用的文档,似乎持久性 HDFS 卷目前不可用。
  • 您可以查看 Dataproc发行说明更新以检查有关此功能的更新
  • 找到了与您的问题类似的场景,从 Google 官方文档常见问题解答中关闭集群时,我的数据会发生什么情况,答案可能对您有所帮助
  • 作为最佳实践,谷歌建议使用 GCP 作为 Dataproc 的持久存储层。Google Cloud Storage 连接器将为您提供对存储在 Cloud Storage 中的文件的“直接数据访问”并直接访问它们。
于 2021-05-12T13:13:27.283 回答