问题标签 [dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
75 浏览

python - 我们可以通过在 step_id 中传递 Jupyter 笔记本的路径来创建 Dataproc 工作流模板吗?

我一直在尝试创建 Dataproc 工作流模板来执行存在于我的 Dataproc 集群上的 Jupyter 笔记本,但是当我实例化该模板时,作业会失败,而如果我将笔记本下载为.py文件,然后将它们添加到工作流模板中,它就可以工作。

我只是好奇是否有任何方法可以创建一个可以直接将现有 Jupyter 笔记本作为其步骤的工作流模板。

0 投票
0 回答
10 浏览

plotly-express - Plotly express 不显示在 Data Proc Hub 上?

在 Data Proc Hub JupyterLab Notebook 实例中似乎没有显示 Plotly express 数字?

有人在 Data Proc Hub 上有过类似的经历吗?

0 投票
3 回答
58 浏览

google-cloud-dataproc - 是否可以使用 Google Dataproc 上的初始化脚本向集群提交作业?

我在 1 个集群上使用 Dataproc 和 1 个作业。

我想在集群创建后立即开始我的工作。我发现实现此目的的最佳方法是使用如下所示的初始化脚本提交作业。

可能吗?当我在 Dataproc 上运行此程序时,未提交作业...

谢谢!

0 投票
0 回答
133 浏览

google-cloud-platform - 重启主虚拟机后,GPU 集群中的 Dataproc 集群 Spark 作业提交失败

我按照https://cloud.google.com/dataproc/docs/concepts/compute/gpus上的教程创建了一个单节点 n1-standard-16 Dataproc 集群(基本映像为:1.5.35-debian10)并附加特斯拉 T4 GPU。我在创建集群后安装了 NVIDIA 驱动程序,并且能够成功运行在 GPU 上运行的 Spark 作业。

但是,当我停止主实例,再次启动它并提交一个新的 Dataproc 作业时,它在 5 分钟后失败并显示“未获取任务”,并且找不到在同一集群中运行作业的任何方法。

任何帮助表示赞赏。

编辑:按照@Dagang 的建议调查 /var/log/hadoop-yarn 文件夹中的 hadoop-yarn 日志后,似乎它与 YARN 节点管理器有关。节点管理器失败并显示以下消息。

Edit2:主要失败原因是“意外:无法创建纱线 cgroup 子系统:设备挂载点:/proc/mounts 用户:纱线路径:/sys/fs/cgroup/devices/yarn”。按照Hadoop官网的建议:安装脚本中需要运行以下几行:

但是这些命令已经存在于install_gpu_drivers.sh

完整的错误日志:

如何重现:我使用 Google Dataproc Node.js 客户端库来创建 Dataproc 集群。这是我的配置:

创建集群后,提交基本作业。作业完成后停止并启动 VM,然后重新提交类似的作业。集群将不会获取此新作业。

0 投票
1 回答
68 浏览

google-cloud-platform - Google Cloud Dataproc 支持的 OSS

当我去https://cloud.google.com/dataproc时,我看到了这个......

“Dataproc 是一项完全托管且高度可扩展的服务,用于运行 Apache Spark、Apache Flink、Presto 以及 30 多种开源工具和框架。”

gcloud dataproc jobs submit没有列出所有这些。它只列出了 8 个(hadoop、hive、pig、presto、pyspark、spark、spark-r、spark-sql)。知道为什么吗?

0 投票
0 回答
118 浏览

google-cloud-platform - 无法从云 dataproc(Pyspark) 访问存储在 Secret Manager 中的秘密

我正在尝试从 dataproc 访问存储在 GC Secret Manager 中的机密,但我无法这样做。我已启用 Secrets Manager api 并将 Secret Manager Secret Accessor 的 IAM 角色添加到我的所有者帐户和数据过程中。但是我正在尝试创建/访问机密,但出现以下错误:

PermissionDenied:403 请求的身份验证范围不足。

我正在关注此处提供的以下教程[https://cloud.google.com/secret-manager/docs/creating-and-accessing-secrets?authuser=3]

这是代码片段:

0 投票
1 回答
307 浏览

docker - GCP Dataproc 基础 Docker 映像

有谁知道我在哪里可以找到 GCP 的 dataproc 的 docker 映像?我使用过 dataproc 集群,发现它们非常好,但我想在本地开发,并且只有在我准备好处理大型工作时才将我的计算转移到云端。我找到了一些可与 pyspark 一起使用的 docker 映像,但我希望获得与 GCP dataproc 一样流畅的东西。

0 投票
0 回答
19 浏览

apache-spark - 我可以向处于创建状态的 DataProc 提交作业吗?

用例我在配置状态下向集群提交 4 个作业

dataproc 作业的生命周期 ( https://cloud.google.com/dataproc/docs/concepts/jobs/life-of-a-job ) 描述了作业将在初始化脚本完成并且集群处于运行状态后开始运行。到那时它会被节流。

但是 4 个作业中有 3 个因 OOM 错误而失败(未获取任务错误)

0 投票
1 回答
81 浏览

apache-spark - 从 Dataproc 写入 BigQuery 表时出错 - Spark

我正在尝试将数据从 Dataproc - Spark 插入到 Big Query 表中。我正在使用以下代码:

错误:

pyspark.sql.utils.IllegalArgumentException: 'SaveMode 设置为 ErrorIfExists 并且表 project.datasource.table1 已经存在。您是否想通过将 SaveMode 设置为 Append 来将数据添加到表中?示例:df.write.format.options.mode(SaveMode.Append).save()'

我插入了“.mode(SaveMode.Append)”,但它没有用。

0 投票
1 回答
45 浏览

apache-spark - 如何将 bigquery-connector 添加到 dataproc 上的现有集群

我刚刚开始使用 dataproc 在 bigquery 中对大数据进行机器学习。当我尝试运行此代码时:

我收到这样的某些部分错误:

我在这个 git repo 中找到了一些教程:https ://github.com/GoogleCloudDataproc/spark-bigquery-connector

但是我不知道在哪里编写脚本并运行它们。你能让我理解吗?

提前致谢