问题标签 [dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1568 浏览

apache-spark - pyspark 读取 bigquery 时出错:java.lang.ClassNotFoundException:org.apache.spark.internal.Logging$class

我创建了一个 dataproc 集群,并试图提交我的本地作业进行测试。

尝试提交一个非常简单的脚本

尝试使用提交作业,都得到了几乎相同的错误:

这是错误消息:

听说可能是兼容性问题,我尝试降级集群并使用镜像版本 1.5-debian10,但得到了同样的错误。

任何帮助,将不胜感激

0 投票
0 回答
104 浏览

python - Dataproc 退出代码 247

在 DataProc 上运行 sparkNLP,代码突然结束,唯一的日志语句是

退出代码 247 是什么意思?

0 投票
1 回答
119 浏览

command-line-interface - gcloud dataproc 集群列表过滤器!=

如何使用!=(不等于)过滤 dataproc 集群?我试过了:

我正在寻找“非永久性”的集群,即 label.disposition 不存在或者不是永久性的。

0 投票
1 回答
671 浏览

apache-spark - 在 Dataproc 上使用 Spark Bigquery 连接器,数据似乎延迟了一个小时

我正在使用在 Dataproc 上运行的 spark 2.4 并每 15 分钟运行一次批处理作业以从 bq 表中获取一些数据,将其聚合(总和)并通过 pyspark.sql 将其存储在另一个 bq 表中(覆盖)。

如果我在 spark 中查询表,看起来数据落后了大约一个小时。或者更确切地说,它在大约一个小时前切断。如果我对在 Spark 中查询的表使用完全相同的查询,但是在 BQ Web 控制台中,所有数据都在那里并且是最新的。难道我做错了什么?或者这是连接器的预期行为?

这基本上是我正在使用的代码:

编辑:似乎每小时的截止时间似乎几乎是任意的。例如,当前是“2020-11-25 06:31 UTC”,但通过 Spark 连接器从 BQ 查询的最大时间戳是:“2020-11-25 05:56:39 UTC”。

该表的更多信息:

提前致谢!

0 投票
1 回答
90 浏览

google-cloud-platform - 我是否有可能在 GCP(谷歌云平台)中使用 dataproc 工作节点为自动扩展设置完全自定义的指标

我是否可以在 GCP(谷歌云平台)中使用 dataproc 工作节点为自动横向扩展设置完全自定义的指标?

我想在 GCP 中通过 dataproc 运行 Spark 分发处理。但问题是,我只想根据完全定制的指标数据水平扩展工作节点。我对此感到好奇的原因是可以预测预期要处理的未来数据。

now / now+1 / now+2 / now+3
1GB / 2GB / 1GB / 3GB <=== 预期数据量(公制)

那么我可以根据未来的预期数据量预测横向扩展/缩减吗?提前致谢。

0 投票
0 回答
55 浏览

hadoop - 在 GCP 上运行 Spark 的问题

我们为平台的每个版本运行许多脚本,我们希望使用 Snakemake 自动运行这些脚本。计划是在谷歌云上启动一个虚拟机并在那里运行snakemake,输入/输出文件的位置是从一个yaml文件中读取的。

除了使用 pyspark 并从 Google 存储桶读取源文件的脚本外,一切都运行良好。似乎 pyspark 使用 hadoop 从 gs:// 位置读取文件,因此需要使用 spark 正确配置 hadoop。

我们还没有弄清楚如何正确构建 Hadoop 环境,当我们运行 spark 脚本时,它总是说:

使用 dataproc 时,我们没有这样的问题,但我们无法重现该环境,而且我不确定是否可以向 dataproc 提交完整的 snakemake 管道及其所有依赖项。

是否可以在不使用 Dataproc 的情况下设置 Hadoop 环境?您对如何处理此工作流程有任何其他提示吗?

0 投票
0 回答
94 浏览

pyspark - pyspark - 如何在 GCP 上托管的 dataproc 中运行和安排流式传输作业

我正在尝试使用 pyspark 代码从增量表中流式传输数据,并在每个周期之间以 10-15 分钟的间隔连续对最终增量目标执行合并。

我编写了一个简单的 pyspark 代码并使用命令“spark-submit gs://<pyspark_script>>.py”在 spark shell 中提交作业。但是,该脚本运行一次并且不占用下一个周期。

代码示例:

如何在谷歌云中的 dataproc 中提交 Spark 作业以进行连续流式传输?

流式作业的源和目标都是增量表。

0 投票
1 回答
204 浏览

google-cloud-platform - 使用 terraform 自动创建防火墙规则以及创建 Dataproc 集群

我正在使用 Terraform 模板来配置 Google Cloud Dataproc 集群。之后,我将创建防火墙规则来限制进入这些计算引擎实例的流量。

我正在寻找一种与 dataproc 集群一起自动创建防火墙规则的方法。好像没有什么直截了当的方法,因为防火墙规则中的IP不得不提,只能通过查看创建的集群来获取。

我在想的另一种方法是创建一个具有安全性的 VPC,并在该 VPC 中创建 dataproc 集群。

任何人都可以就此提供任何专家建议吗?

0 投票
1 回答
92 浏览

performance - DataProc 处理时间超过 3 小时,比预期的不到 15 分钟

我已经迁移了一部分 C 应用程序以使用 PySpark 作业在 DataProc 上进行处理(读取和写入 Big Query - 数据量 - 大约 10 GB)。在本地数据中心运行 8 分钟的 C 应用程序在 Data Proc 上大约需要 4 小时。有人可以告诉我最佳的 Data Proc 配置吗?目前我正在使用以下一个:

--master-machine-type n2-highmem-32 --master-boot-disk-type pd-ssd --master-boot-disk-size 500 --num-workers 2 --worker-machine-type n2-highmem -32 --worker-boot-disk-type pd-ssd --worker-boot-disk-size 500 --image-version 1.4-debian10

非常感谢有关最佳数据处理配置的任何帮助。

谢谢, RP

0 投票
1 回答
176 浏览

google-cloud-platform - Apache Phoenix - GCP 数据处理

我正在 Google Cloud Dataproc 上进行 POC,并将 HBase 作为组件之一。

我创建了集群,并且能够让集群与 HBase 服务一起运行。我可以通过 shell 列出和创建表。

我想使用 Apache Phoenix 作为客户端在 HBase 上进行查询。我通过参考这个链接在集群上安装了它。

安装正常,但是当我执行 sqlline.py localhost 时,它应该在 hbase 中创建 Meta 表。它实际上失败并给出错误作为过渡中的区域。

有谁知道如何解决这个问题,或者是否存在 Apache Phoenix 不能与 Dataproc 一起使用的限制。