问题标签 [dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
26 浏览

google-cloud-platform - 使用 Dataproc 在 Zeppelin 上的插件问题

我正在使用 Dataproc 并尝试使用正确的变量将我的笔记本保存在 GCS 和 GitHub 上。但它不起作用。

我正在使用 Zeppelin 组件。

我收到了这个错误:

主文件和文件夹插件中的检查不存在。

任何人都可以帮助我吗?如何安装或配置此插件?

0 投票
1 回答
226 浏览

google-cloud-platform - 在 Dataproc 现有集群上安装 PIP 包

有没有办法使用

或类似的东西在现有的dataproc集群上安装包?或者我需要在 PIP_PACKAGES 上重新创建和设置包吗?

0 投票
1 回答
634 浏览

apache-spark - 线程“主”org.apache.spark.sql.AnalysisException 中的异常:路径不存在

我在 Google dataproc 集群版本 1.4 和 spark 版本 2.4.5 中运行 spark 作业,它从 GS 存储桶的路径中读取带有正则表达式的文件并低于错误。

我能够使用 spark 版本 2.2.3 在 dataproc 1.2 集群中运行相同的作业,并且能够从路径中读取文件。

我们应该在 spark 2.4.5 中形成正则表达式的方式是否有任何变化,或者 dataproc 1.4 集群的 google api 是否有任何变化,这需要改变我用正则表达式创建这些路径的方式。

0 投票
0 回答
144 浏览

docker - 从 docker 容器在 dataproc 中运行 pyspark 数据帧

1-我创建了一个使用 docker 作为初始化操作的 dataproc 集群

根据:https ://github.com/GoogleCloudDataproc/initialization-actions/tree/master/docker docker 应该在主节点和工作节点中配置

2-我在主服务器中有 SSH,安装了 docker-compose 并在那里克隆了我的应用程序。我的应用程序是一个烧瓶(python)服务器,它根据 API 请求处理一些数据并发回响应。

由于我的逻辑在 docker 容器内,我想从容器内调用 dataproc 主控器。 我已经在我的容器中安装了 pyspark,但我不确定如何从我的 docker 容器中运行 pyspark 代码,这些代码可以由主机上的 dataproc master + workers 执行?

0 投票
1 回答
167 浏览

apache-spark - 如果我在更改 spark-env.sh 或 spark-defaults 后在 yarn 上运行 spark,是否需要重新启动节点?

我正在努力更改 spark 的 conf,以限制我的 spark 结构化流日志文件的日志。我已经想到了这样做的属性,但它现在不起作用。我需要重新启动所有节点(名称和工作节点)还是重新启动作业就足够了。我们正在使用 google dataproc 集群并使用 yarn 运行 spark。

0 投票
2 回答
760 浏览

python-3.x - 无法从“google.cloud”(未知位置)导入名称“dataproc_v1”

尝试从计算机通过 Jupyter Notebook 访问 Using Dataproc,我使用 pip 安装了所需的库。但是,导入时出错

错误如下:

还尝试安装包 python3 -m pip install google-cloud-dataproc。作为参考,这里是 pip list 的输出。任何建议/帮助表示赞赏!

0 投票
1 回答
593 浏览

google-cloud-platform - YARN 上 GCP Dataproc 上的自动缩放指标

为什么 GCP Dataproc 的集群基于内存请求不是核心使用 YARN 作为 RM 自动扩展?是 Dataproc 或 YARN 的限制还是我遗漏了什么?

参考:https ://cloud.google.com/dataproc/docs/concepts/configuring-clusters/autoscaling

自动缩放将 Hadoop YARN 配置为基于YARN 内存请求而不是 YARN 核心请求来调度作业。

自动缩放以以下 Hadoop YARN 指标为中心:

分配的内存是指在整个集群中运行容器所占用的总 YARN 内存。如果有 6 个正在运行的容器最多可以使用 1GB,则分配的内存为 6GB。

可用内存是集群中未分配容器使用的 YARN 内存。如果所有节点管理器有 10GB 的内存和 6GB 的分配内存,则有 4GB 的可用内存。如果集群中有可用(未使用)的内存,自动缩放可能会从集群中移除工作人员。

待处理内存是待处理容器的 YARN 内存请求的总和。待处理的容器正在等待空间在 YARN 中运行。仅当可用内存为零或太小而无法分配给下一个容器时,挂起的内存才非零。如果有待处理的容器,自动缩放可能会将工作人员添加到集群中。

0 投票
1 回答
400 浏览

hadoop - Dataproc Worker Node 的磁盘利用率日益增加

我们有 1 个主节点和 7 个工作节点的 Dataproc 集群。所有工作节点都有 1 个引导磁盘和 1 个 375 GB (sdb) 的本地磁盘。工作节点 0,1,2,3 的 sdb(mounted on /mnt/1) 磁盘利用率已达到 85% 以上,5,6,7 也逐渐增加到 85%。

我们发现以下目录下的文件占主要部分(304G)

/mnt/1/hadoop/dfs/data/current/BP-XXXXXXX-XX.XX.XX.X-XXXXXXXX/current/finalized .

我们发现它下面有文件夹


cd subdir6

ls -larth 总计 688K


XXXX/current/finalized/subdir6# cd subdir0 XXXXXX/current/finalized/subdir6/subdir0# ls -larth 总计 726M

--------------- 很多很多这样的文件 ---------------

  1. 我们可以删除那些文件吗?
  2. 这些文件的目的是什么?

删除这些的最佳方法是什么?

非常感谢您的信息。我已经运行了命令。

事件日志似乎占用了将近 1TB

=============== 上面是修剪输出。其余 6 个节点的磁盘使用率几乎相同。

  1. 删除事件日志是否安全?我的意思是它会妨碍任何正在运行的作业或集群吗?

  2. 我运行下面的命令来查找有多少文件,我发现它很大。

    ~# hadoop fs -du -h /user/spark/eventlog|wc -l

    236757

所有文件的大小几乎为 5~6MB。是否有任何命令可以删除至少 7 天前的匹配文件?

0 投票
1 回答
90 浏览

apache-spark - 在 Dataproc 中运行 300 多个并发 Spark 作业的最佳方法?

我有一个带有 2 个工作节点 (n1s2) 的 Dataproc 集群。有一个外部服务器在一小时内提交大约 360 个 Spark 作业(每次提交之间有几分钟的间隔)。第一项工作成功完成,但随后的工作卡住了,根本不继续。

每个作业都会处理一些时间序列数字并写入 Cassandra。而在集群完全空闲的情况下,所花费的时间通常是 3-6 分钟。

我觉得这可以通过扩展集群来解决,但对我来说会变得非常昂贵。最好地解决这个用例的其他选择是什么?

0 投票
1 回答
163 浏览

python-3.x - dataproc 在 python 中创建集群 gcloud 等效命令

如何在 python 中复制以下 gcloud 命令?

这是我到目前为止在 python 中的内容:

不确定如何将这些 gcloud 命令转换为 python: