问题标签 [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - java.net.BindException:使用 Google DataProc 时地址已在使用中
我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群,我正在尝试使用文档中指定的 gcutil 从我的本地计算机提交一个简单的 pyspark hello-world.py 作业 - https://cloud.google.com/dataproc /提交作业
但是,我收到以下错误:
我只提交了一次这个工作,所以我很困惑为什么我会收到这个错误。任何帮助,将不胜感激。
apache-spark - 从 Google Cloud Dataproc 访问 Cassandra
我刚刚使用 DataProc 在 Google Cloud 中设置了一个 Spark 集群,并且我在单独的 VM 上运行了一个独立安装的 Cassandra。我想安装 Datastax spark-cassandra 连接器,这样我就可以从 spark 连接到 Cassandra。我怎样才能做到这一点 ?
连接器可以在这里下载:
https://github.com/datastax/spark-cassandra-connector
关于构建的说明在这里: https ://github.com/datastax/spark-cassandra-connector/blob/master/doc/12_building_and_artifacts.md
需要 sbt 来构建它。
我在哪里可以找到 DataProc 安装的 sbt?
它会在 $SPARK_HOME/bin 下吗?为 DataProc 安装 spark 的位置在哪里?
apache-spark - 暂停 Dataproc 集群 - Google 计算引擎
有没有办法暂停 Dataproc 集群,这样当我没有主动运行 spark-shell 或 spark-submit 作业时就不会被收费?此链接上的集群管理说明:https ://cloud.google.com/sdk/gcloud/reference/beta/dataproc/clusters/
仅显示如何销毁集群,但我已经安装了例如 spark cassandra 连接器 API。除了创建一个我每次都需要安装的图像之外,我是唯一的选择吗?
sparkr - Dataproc (Spark 1.5.x) 上的 SparkR 不起作用
当我尝试在 Cloud Dataproc 集群(版本 0.2)上使用 SparkR 时,我收到如下错误:
我该如何解决这个问题,以便我可以使用 SparkR?
apache-spark - 监控 Dataproc 集群上的 Spark-Shell 或 PySpark-Shell 会话
我知道有从 Dataproc 集群访问 Spark作业驱动程序输出和Hadoop 作业的答案,以及Google Cloud Logging 中 Dataproc Spark 作业的输出。谢谢这些。
但是,我也有兴趣查看不完整的Spark 应用程序的日志,例如交互式pyspark-shell
或spark-shell
会话——两者都通过:
- 使用相同的 Web 界面,以及可能
- 访问原始会话输出(本地 fs 或 hdfs 上的日志文件?)
在 Spark shell 会话期间,虽然我可以将会话视为不完整的应用程序,但当我在 REPL 中执行命令时,UI 没有跨Jobs、Stages和Tasks选项卡提供此类信息。这可以很容易地复制,如:
我可以将 Spark 会话视为一个不完整的应用程序(如上所述),并且可以执行基本的 Spark 作业(带有collect
操作),例如:
但这会导致任何Jobs、Stages或Storage选项卡中没有任何信息:请参阅 Spark Job History UI screen grab (blank)。
需要强调的是:但是,当通过 Dataproc API 提交作业时,这些选项卡会显示所有预期的作业历史记录。
关于我可以从 Spark shell 会话中访问此类输出/作业历史记录的任何提示?提前谢谢了。:)
apache-spark - Google Cloud Dataproc 迁移到 Spark 1.6.0
Google Dataproc 会很快开始使用 Spark 1.6.0 吗?我正在使用以下命令创建集群:
它默认使用 Spark 1.5.2。
谢谢。
apache-spark - Google Dataproc - 经常与执行者断开连接
我正在使用 Dataproc 在使用 spark-shell 的集群上运行 Spark 命令。我经常收到错误/警告消息,表明我与执行者失去了联系。消息如下所示:
...
这是另一个示例:
这是正常的吗?我能做些什么来防止这种情况发生吗?
python - 使用 pyspark 提交作业时,如何使用 --files 参数访问静态文件上传?
例如,我有一个文件夹:
并将作业提交给 spark 集群:
gcloud beta dataproc jobs submit pyspark --files=test.yml "test.py"
在中test.py
,我想访问我上传的静态文件。
但出现以下异常:
如何访问我上传的文件?
apache-spark - 为 Apache Spark SQL 访问 Google 存储中的数据
我在云存储中有大约 30Gb 的数据,我想在使用 Dataproc 集群中的 Apache Hive 时进行查询。访问这些数据的最佳策略是什么。是通过gsutil将数据复制到我的主服务器并从那里访问它的最佳方法,还是我可以直接在云存储中访问它?如果是后者,如何在 Spark CLI 中指定其位置?我可以指定
当我跑步时
?
apache-spark - 来自 PySpark 的 exec sh
我正在尝试在 PySpark 的作业中运行从 .py 文件加载的 .sh 文件,但我收到一条消息,总是说找不到 .sh 文件
这是我的代码:
测试.py:
和我的 gcloud 命令:
test.py 文件加载良好但系统找不到 check.sh 文件我发现这与文件路径有关但不确定
我也尝试过os.system("sh home/myuser/check.sh")
同样的结果
我认为这应该很容易做到……想法?