问题标签 [google-cloud-dataproc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1287 问题

0 投票

1 回答

6216 浏览

apache-spark - java.net.BindException：使用 Google DataProc 时地址已在使用中

我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群，我正在尝试使用文档中指定的 gcutil 从我的本地计算机提交一个简单的 pyspark hello-world.py 作业 - https://cloud.google.com/dataproc /提交作业

但是，我收到以下错误：

我只提交了一次这个工作，所以我很困惑为什么我会收到这个错误。任何帮助，将不胜感激。

apache-spark google-cloud-dataproc

2015-12-28T09:05:41.453

0 投票

1 回答

708 浏览

apache-spark - 从 Google Cloud Dataproc 访问 Cassandra

我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群，并且我在单独的 VM 上运行了一个独立安装的 Cassandra。我想安装 Datastax spark-cassandra 连接器，这样我就可以从 spark 连接到 Cassandra。我怎样才能做到这一点？

连接器可以在这里下载：

https://github.com/datastax/spark-cassandra-connector

关于构建的说明在这里： https ://github.com/datastax/spark-cassandra-connector/blob/master/doc/12_building_and_artifacts.md

需要 sbt 来构建它。

我在哪里可以找到 DataProc 安装的 sbt？

它会在 $SPARK_HOME/bin 下吗？为 DataProc 安装 spark 的位置在哪里？

2015-12-29T12:25:35.437

0 投票

1 回答

1858 浏览

apache-spark - 暂停 Dataproc 集群 - Google 计算引擎

有没有办法暂停 Dataproc 集群，这样当我没有主动运行 spark-shell 或 spark-submit 作业时就不会被收费？此链接上的集群管理说明：https ://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/

仅显示如何销毁集群，但我已经安装了例如 spark cassandra 连接器 API。除了创建一个我每次都需要安装的图像之外，我是唯一的选择吗？

apache-spark google-cloud-dataproc

2016-01-01T17:38:52.757

0 投票

1 回答

225 浏览

sparkr - Dataproc (Spark 1.5.x) 上的 SparkR 不起作用

当我尝试在 Cloud Dataproc 集群（版本 0.2）上使用 SparkR 时，我收到如下错误：

我该如何解决这个问题，以便我可以使用 SparkR？

sparkr google-cloud-dataproc

2016-01-05T16:26:39.420

0 投票

1 回答

2110 浏览

apache-spark - 监控 Dataproc 集群上的 Spark-Shell 或 PySpark-Shell 会话

我知道有从 Dataproc 集群访问 Spark作业驱动程序输出和Hadoop 作业的答案，以及 Google Cloud Logging 中 Dataproc Spark 作业的输出。谢谢这些。

但是，我也有兴趣查看不完整的Spark 应用程序的日志，例如交互式pyspark-shell或spark-shell会话——两者都通过：

使用相同的 Web 界面，以及可能
访问原始会话输出（本地 fs 或 hdfs 上的日志文件？）

在 Spark shell 会话期间，虽然我可以将会话视为不完整的应用程序，但当我在 REPL 中执行命令时，UI 没有跨Jobs、Stages和Tasks选项卡提供此类信息。这可以很容易地复制，如：

我可以将 Spark 会话视为一个不完整的应用程序（如上所述），并且可以执行基本的 Spark 作业（带有collect操作），例如：

但这会导致任何Jobs、Stages或Storage选项卡中没有任何信息：请参阅 Spark Job History UI screen grab (blank)。

需要强调的是：但是，当通过 Dataproc API 提交作业时，这些选项卡会显示所有预期的作业历史记录。

关于我可以从 Spark shell 会话中访问此类输出/作业历史记录的任何提示？提前谢谢了。:)

apache-spark google-cloud-dataproc

2016-01-13T21:55:24.617

0 投票

2 回答

124 浏览

apache-spark - Google Cloud Dataproc 迁移到 Spark 1.6.0

Google Dataproc 会很快开始使用 Spark 1.6.0 吗？我正在使用以下命令创建集群：

它默认使用 Spark 1.5.2。

谢谢。

apache-spark google-cloud-dataproc

2016-01-19T19:40:56.697

0 投票

1 回答

1299 浏览

apache-spark - Google Dataproc - 经常与执行者断开连接

我正在使用 Dataproc 在使用 spark-shell 的集群上运行 Spark 命令。我经常收到错误/警告消息，表明我与执行者失去了联系。消息如下所示：

...

这是另一个示例：

这是正常的吗？我能做些什么来防止这种情况发生吗？

apache-spark google-cloud-dataproc

2016-01-20T10:13:06.130

0 投票

3 回答

7877 浏览

python - 使用 pyspark 提交作业时，如何使用 --files 参数访问静态文件上传？

例如，我有一个文件夹：

并将作业提交给 spark 集群：

gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"

在中test.py，我想访问我上传的静态文件。

但出现以下异常：

如何访问我上传的文件？

python apache-spark pyspark google-cloud-dataproc

2016-01-22T05:19:56.757

0 投票

1 回答

512 浏览

apache-spark - 为 Apache Spark SQL 访问 Google 存储中的数据

我在云存储中有大约 30Gb 的数据，我想在使用 Dataproc 集群中的 Apache Hive 时进行查询。访问这些数据的最佳策略是什么。是通过gsutil将数据复制到我的主服务器并从那里访问它的最佳方法，还是我可以直接在云存储中访问它？如果是后者，如何在 Spark CLI 中指定其位置？我可以指定

当我跑步时

apache-spark apache-spark-sql google-cloud-dataproc

2016-01-27T09:34:58.837

0 投票

1 回答

270 浏览

apache-spark - 来自 PySpark 的 exec sh

我正在尝试在 PySpark 的作业中运行从 .py 文件加载的 .sh 文件，但我收到一条消息，总是说找不到 .sh 文件

这是我的代码：

测试.py：

和我的 gcloud 命令：

test.py 文件加载良好但系统找不到 check.sh 文件我发现这与文件路径有关但不确定

我也尝试过os.system("sh home/myuser/check.sh")同样的结果

我认为这应该很容易做到……想法？

apache-spark pyspark google-cloud-dataproc

2016-02-03T17:20:18.957

1 2 3 4 5 6 7 8 9 10

问题标签 [google-cloud-dataproc]

Reference