问题标签 [google-cloud-dataproc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1287 问题

0 投票

1 回答

1848 浏览

apache-spark - Google Dataproc 作业从不取消、停止或终止

我已经使用 Google Dataproc 几个星期了，自从我开始使用以来，我遇到了取消和停止作业的问题。

似乎除了在集群设置中创建的服务器之外，还必须有一些服务器来跟踪和监督作业。

当我在开发控制台中点击停止时，我从来没有一个进程可以在没有错误的情况下真正停止。微调器只是不停地旋转和旋转。

集群重启或停止什么都不做，即使停止了几个小时。

只有当集群被完全删除时，作业才会消失......（但等等还有更多！）如果您创建一个具有相同设置的新集群，在之前集群的作业被删除之前，旧作业将在新集群上启动！！！

我已经看到由于 OOM 错误而自行终止的作业在集群重新启动后自行重新启动！（我这边没有编码这种容错）

如何强制停止 Dataproc 作业？（gcloud beta dataproc jobs kill不起作用）

有谁知道这些看似相关的问题是怎么回事？

是否有特殊方法可以关闭 Spark 作业以避免这些问题？

apache-spark google-cloud-platform google-cloud-dataproc

2015-10-14T19:13:47.483

0 投票

2 回答

204 浏览

scala - Tachyon 上 Dataproc 主复制错误

我有一个在安装了 Tachyon、Spark 和 Hadoop 的 Dataproc 主节点上运行的简单示例。

我从 Spark 写入 Tachyon 时出现复制错误。有没有办法指定它不需要复制？

我打印的日志部分只是一个警告，但会立即出现 Spark 错误。

我检查了Tachyon 配置文档，发现了可能导致此问题的原因：

鉴于这一切都在 Dataproc 主节点上，预装了 Hadoop 并且 HDFS 与 Spark 一起工作，我认为这是可以从 Tachyon 内部解决的问题。

scala apache-spark hadoop google-cloud-dataproc alluxio

2015-10-17T22:12:15.977

0 投票

3 回答

9420 浏览

apache-spark - Google Dataproc 上的 Spark 用户界面在哪里？

我应该使用什么端口来访问 Google Dataproc 上的 Spark UI？

我尝试了端口 4040 和 7077 以及我发现使用的许多其他端口netstat -pln

防火墙配置正确。

apache-spark google-cloud-dataproc

2015-10-18T00:35:42.187

0 投票

2 回答

2758 浏览

hadoop - 如何从机器内部在谷歌云数据处理上运行 hive？

我刚刚创建了一个谷歌云数据处理集群。一些基本的事情对我不起作用：

我正在尝试从主节点运行配置单元控制台，但它无法加载除 root 以外的任何用户（看起来有锁，控制台只是卡住了）。
但即使在使用 root 时，我也会看到一些奇怪的行为：
- “显示表格；” 显示一个名为“输入”的表
- 查询该表会引发未找到该表的异常。
目前尚不清楚哪个用户正在通过 Web ui 创建表。我创建了一个作业，执行它，但是通过控制台看不到结果。

找不到任何好的文档 - 有人对此有想法吗？

hadoop hive google-cloud-platform google-cloud-dataproc

2015-10-19T15:25:57.217

0 投票

1 回答

920 浏览

google-cloud-pubsub - 在 Dataproc 集群中启用其他身份验证范围

我正在尝试在需要连接到同一项目中的 Pub/Sub 请求订阅的 Dataproc 集群中运行 Spark (scala) 作业，但我收到以下错误消息。我认为我的 Dataproc 集群中的机器缺少“ https://www.googleapis.com/auth/pubsub ”范围。

我可以向 Dataproc 集群的机器添加额外的身份验证范围吗？

PS：如有必要，重新创建集群不会有问题。

google-cloud-pubsub google-cloud-dataproc

2015-10-19T21:55:51.650

0 投票

1 回答

2481 浏览

python - 使用 pyspark 脚本从 bigquery 加载表到 spark 集群

我在 bigquery 中加载了一个数据表，我想通过 pyspark .py 文件将它导入到我的 spark 集群中。

我在Dataproc + BigQuery 示例中看到了 - 有可用的吗？有一种方法可以使用 scala 在 spark 集群中加载 bigquery 表，但是有没有办法在 pyspark 脚本中执行此操作？

python apache-spark google-bigquery pyspark google-cloud-dataproc

2015-10-27T04:27:12.623

0 投票

1 回答

1506 浏览

csv - 在 pyspark 中加载 Databricks csv 库

我尝试在使用 Google Dataproc 创建的 spark 集群上加载 databricks csv 库（参见https://github.com/databricks/spark-csv ）。而所有这些都使用 PySpark。

我启动 PySpark 并输入：

但我得到了这个答案：

这与文档https://github.com/databricks/spark-csv与 https://github.com/databricks/spark-csv/issues/59上的 post lebigot 相矛盾

有人能帮我吗？

csv apache-spark pyspark google-cloud-dataproc

2015-10-27T05:36:05.013

0 投票

2 回答

5444 浏览

import - 在 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库

我有一个通过 google dataproc 创建的 spark 集群。我希望能够使用databricks中的csv 库（请参阅https://github.com/databricks/spark-csv）。所以我首先像这样测试它：

我与集群的主节点启动了 ssh 会话，然后输入：

然后它启动了一个 pyspark shell，我在其中输入：

它奏效了。

我的下一步是使用以下命令从我的主机启动此作业：

但在这里它不起作用，我得到一个错误。我想是因为我没有给出--packages com.databricks:spark-csv_2.11:1.2.0作为论据，但我尝试了 10 种不同的方式来给出它，但我没有成功。

我的问题是：

是我输入后安装的databricks csv库pyspark --packages com.databricks:spark-csv_2.11:1.2.0
我可以写一行job.py来导入它吗？
或者我应该为我的 gcloud 命令提供哪些参数来导入或安装它？

import apache-spark pyspark google-cloud-dataproc

2015-10-27T08:38:12.630

0 投票

1 回答

99 浏览

google-cloud-dataproc - 清理 BigQueryInputFormat 临时文件

我在 spark 作业中使用 BigQueryInputFormat，将数据直接从 Bigquery 加载到 RDD 中。文档说明您应该使用以下命令清理临时文件：

BigQueryInputFormat.cleanupJob（作业）

但是，从 Spark 工作中，当“工作”是 hadoop 工作时，我该怎么做？

谢谢，卢克

google-cloud-dataproc

2015-10-27T22:03:14.737

0 投票

1 回答

1706 浏览

google-cloud-platform - Cloud Dataproc 和其他 Google Cloud 产品的身份验证错误

我正在尝试将Google Cloud PubSub与我的Google Cloud Dataproc集群一起使用，但我收到了如下所示的身份验证范围错误：

如何解决此问题，以便在 Cloud Dataproc 上运行的 Spark/Hadoop 项目中使用 PubSub（和其他 Google Cloud）产品？

google-cloud-platform google-cloud-pubsub google-cloud-dataproc

2015-11-02T21:55:47.073

1 2 3 4 5 6 7 8 9 10