问题标签 [google-cloud-dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
6216 浏览

apache-spark - java.net.BindException:使用 Google DataProc 时地址已在使用中

我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群,我正在尝试使用文档中指定的 gcutil 从我的本地计算机提交一个简单的 pyspark hello-world.py 作业 - https://cloud.google.com/dataproc /提交作业

但是,我收到以下错误:

我只提交了一次这个工作,所以我很困惑为什么我会收到这个错误。任何帮助,将不胜感激。

0 投票
1 回答
708 浏览

apache-spark - 从 Google Cloud Dataproc 访问 Cassandra

我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群,并且我在单独的 VM 上运行了一个独立安装的 Cassandra。我想安装 Datastax spark-cassandra 连接器,这样我就可以从 spark 连接到 Cassandra。我怎样才能做到这一点 ?

连接器可以在这里下载:

https://github.com/datastax/spark-cassandra-connector

关于构建的说明在这里: https ://github.com/datastax/spark-cassandra-connector/blob/master/doc/12_building_and_artifacts.md

需要 sbt 来构建它。

我在哪里可以找到 DataProc 安装的 sbt?

它会在 $SPARK_HOME/bin 下吗?为 DataProc 安装 spark 的位置在哪里?

0 投票
1 回答
1858 浏览

apache-spark - 暂停 Dataproc 集群 - Google 计算引擎

有没有办法暂停 Dataproc 集群,这样当我没有主动运行 spark-shell 或 spark-submit 作业时就不会被收费?此链接上的集群管理说明:https ://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/

仅显示如何销毁集群,但我已经安装了例如 spark cassandra 连接器 API。除了创建一个我每次都需要安装的图像之外,我是唯一的选择吗?

0 投票
1 回答
225 浏览

sparkr - Dataproc (Spark 1.5.x) 上的 SparkR 不起作用

当我尝试在 Cloud Dataproc 集群(版本 0.2)上使用 SparkR 时,我收到如下错误:

我该如何解决这个问题,以便我可以使用 SparkR?

0 投票
1 回答
2110 浏览

apache-spark - 监控 Dataproc 集群上的 Spark-Shell 或 PySpark-Shell 会话

我知道有从 Dataproc 集群访问 Spark作业驱动程序输出Hadoop 作业的答案,以及Google Cloud Logging 中 Dataproc Spark 作业的输出。谢谢这些。

但是,我也有兴趣查看不完整的Spark 应用程序的日志,例如交互式pyspark-shellspark-shell会话——两者都通过:

  1. 使用相同的 Web 界面,以及可能
  2. 访问原始会话输出(本地 fs 或 hdfs 上的日志文件?)

在 Spark shell 会话期间,虽然我可以将会话视为不完整的应用程序,但当我在 REPL 中执行命令时,UI 没有跨JobsStagesTasks选项卡提供此类信息。这可以很容易地复制,如:

我可以将 Spark 会话视为一个不完整的应用程序(如上所述),并且可以执行基本的 Spark 作业(带有collect操作),例如:

但这会导致任何JobsStagesStorage选项卡中没有任何信息:请参阅 Spark Job History UI screen grab (blank)

需要强调的是:但是,当通过 Dataproc API 提交作业时,这些选项卡会显示所有预期的作业历史记录。

关于我可以从 Spark shell 会话中访问此类输出/作业历史记录的任何提示?提前谢谢了。:)

0 投票
2 回答
124 浏览

apache-spark - Google Cloud Dataproc 迁移到 Spark 1.6.0

Google Dataproc 会很快开始使用 Spark 1.6.0 吗?我正在使用以下命令创建集群:

它默认使用 Spark 1.5.2。

谢谢。

0 投票
1 回答
1299 浏览

apache-spark - Google Dataproc - 经常与执行者断开连接

我正在使用 Dataproc 在使用 spark-shell 的集群上运行 Spark 命令。我经常收到错误/警告消息,表明我与执行者失去了联系。消息如下所示:

...

这是另一个示例:

这是正常的吗?我能做些什么来防止这种情况发生吗?

0 投票
3 回答
7877 浏览

python - 使用 pyspark 提交作业时,如何使用 --files 参数访问静态文件上传?

例如,我有一个文件夹:

并将作业提交给 spark 集群:

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

在中test.py,我想访问我上传的静态文件。

但出现以下异常:

如何访问我上传的文件?

0 投票
1 回答
512 浏览

apache-spark - 为 Apache Spark SQL 访问 Google 存储中的数据

我在云存储中有大约 30Gb 的数据,我想在使用 Dataproc 集群中的 Apache Hive 时进行查询。访问这些数据的最佳策略是什么。是通过gsutil将数据复制到我的主服务器并从那里访问它的最佳方法,还是我可以直接在云存储中访问它?如果是后者,如何在 Spark CLI 中指定其位置?我可以指定

当我跑步时

?

0 投票
1 回答
270 浏览

apache-spark - 来自 PySpark 的 exec sh

我正在尝试在 PySpark 的作业中运行从 .py 文件加载的 .sh 文件,但我收到一条消息,总是说找不到 .sh 文件

这是我的代码:

测试.py:

和我的 gcloud 命令:

test.py 文件加载良好但系统找不到 check.sh 文件我发现这与文件路径有关但不确定

我也尝试过os.system("sh home/myuser/check.sh")同样的结果

我认为这应该很容易做到……想法?