问题标签 [google-cloud-dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1848 浏览

apache-spark - Google Dataproc 作业从不取消、停止或终止

我已经使用 Google Dataproc 几个星期了,自从我开始使用以来,我遇到了取消和停止作业的问题。

似乎除了在集群设置中创建的服务器之外,还必须有一些服务器来跟踪和监督作业。

当我在开发控制台中点击停止时,我从来没有一个进程可以在没有错误的情况下真正停止。微调器只是不停地旋转和旋转。

集群重启或停止什么都不做,即使停止了几个小时。

只有当集群被完全删除时,作业才会消失......(但等等还有更多!)如果您创建一个具有相同设置的新集群,在之前集群的作业被删除之前,旧作业将在新集群上启动!!!

我已经看到由于 OOM 错误而自行终止的作业在集群重新启动后自行重新启动!(我这边没有编码这种容错)

如何强制停止 Dataproc 作业?(gcloud beta dataproc jobs kill不起作用)

有谁知道这些看似相关的问题是怎么回事?

是否有特殊方法可以关闭 Spark 作业以避免这些问题?

0 投票
2 回答
204 浏览

scala - Tachyon 上 Dataproc 主复制错误

我有一个在安装了 Tachyon、Spark 和 Hadoop 的 Dataproc 主节点上运行的简单示例。

我从 Spark 写入 Tachyon 时出现复制错误。有没有办法指定它不需要复制?

我打印的日志部分只是一个警告,但会立即出现 Spark 错误。

我检查了Tachyon 配置文档,发现了可能导致此问题的原因:

鉴于这一切都在 Dataproc 主节点上,预装了 Hadoop 并且 HDFS 与 Spark 一起工作,我认为这是可以从 Tachyon 内部解决的问题。

0 投票
3 回答
9420 浏览

apache-spark - Google Dataproc 上的 Spark 用户界面在哪里?

我应该使用什么端口来访问 Google Dataproc 上的 Spark UI?

我尝试了端口 4040 和 7077 以及我发现使用的许多其他端口netstat -pln

防火墙配置正确。

0 投票
2 回答
2758 浏览

hadoop - 如何从机器内部在谷歌云数据处理上运行 hive?

我刚刚创建了一个谷歌云数据处理集群。一些基本的事情对我不起作用:

  1. 我正在尝试从主节点运行配置单元控制台,但它无法加载除 root 以外的任何用户(看起来有锁,控制台只是卡住了)。

  2. 但即使在使用 root 时,我也会看到一些奇怪的行为:

    • “显示表格;” 显示一个名为“输入”的表
    • 查询该表会引发未找到该表的异常。
  3. 目前尚不清楚哪个用户正在通过 Web ui 创建表。我创建了一个作业,执行它,但是通过控制台看不到结果。

找不到任何好的文档 - 有人对此有想法吗?

0 投票
1 回答
920 浏览

google-cloud-pubsub - 在 Dataproc 集群中启用其他身份验证范围

我正在尝试在需要连接到同一项目中的 Pub/Sub 请求订阅的 Dataproc 集群中运行 Spark (scala) 作业,但我收到以下错误消息。我认为我的 Dataproc 集群中的机器缺少“ https://www.googleapis.com/auth/pubsub ”范围。

我可以向 Dataproc 集群的机器添加额外的身份验证范围吗?

PS:如有必要,重新创建集群不会有问题。

0 投票
1 回答
2481 浏览

python - 使用 pyspark 脚本从 bigquery 加载表到 spark 集群

我在 bigquery 中加载了一个数据表,我想通过 pyspark .py 文件将它导入到我的 spark 集群中。

我在Dataproc + BigQuery 示例中看到了 - 有可用的吗?有一种方法可以使用 scala 在 spark 集群中加载 bigquery 表,但是有没有办法在 pyspark 脚本中执行此操作?

0 投票
1 回答
1506 浏览

csv - 在 pyspark 中加载 Databricks csv 库

我尝试在使用 Google Dataproc 创建的 spark 集群上加载 databricks csv 库(参见https://github.com/databricks/spark-csv )。而所有这些都使用 PySpark。

我启动 PySpark 并输入:

但我得到了这个答案:

这与文档https://github.com/databricks/spark-csv与https://github.com/databricks/spark-csv/issues/59上的 post lebigot 相矛盾

有人能帮我吗?

0 投票
2 回答
5444 浏览

import - 在 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库

我有一个通过 google dataproc 创建的 spark 集群。我希望能够使用databricks中的csv 库(请参阅https://github.com/databricks/spark-csv)。所以我首先像这样测试它:

我与集群的主节点启动了 ssh 会话,然后输入:

然后它启动了一个 pyspark shell,我在其中输入:

它奏效了。

我的下一步是使用以下命令从我的主机启动此作业:

但在这里它不起作用,我得到一个错误。我想是因为我没有给出--packages com.databricks:spark-csv_2.11:1.2.0作为论据,但我尝试了 10 种不同的方式来给出它,但我没有成功。

我的问题是:

  1. 是我输入后安装的databricks csv库pyspark --packages com.databricks:spark-csv_2.11:1.2.0
  2. 我可以写一行job.py来导入它吗?
  3. 或者我应该为我的 gcloud 命令提供哪些参数来导入或安装它?
0 投票
1 回答
99 浏览

google-cloud-dataproc - 清理 BigQueryInputFormat 临时文件

我在 spark 作业中使用 BigQueryInputFormat,将数据直接从 Bigquery 加载到 RDD 中。文档说明您应该使用以下命令清理临时文件:

BigQueryInputFormat.cleanupJob(作业)

但是,从 Spark 工作中,当“工作”是 hadoop 工作时,我该怎么做?

谢谢,卢克

0 投票
1 回答
1706 浏览

google-cloud-platform - Cloud Dataproc 和其他 Google Cloud 产品的身份验证错误

我正在尝试将Google Cloud PubSub与我的Google Cloud Dataproc集群一起使用,但我收到了如下所示的身份验证范围错误:

如何解决此问题,以便在 Cloud Dataproc 上运行的 Spark/Hadoop 项目中使用 PubSub(和其他 Google Cloud)产品?