问题标签 [google-cloud-dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
278 浏览

hadoop - GCE 上的 Hadoop 实例

我正在 Google Compute Engine 上设置 Hadoop 集群。但我无法理解集群实例的工作方式。我已经搜索了很多,但没有给出明确的答案。

在设置 Hadoop 集群时,您是否创建一个已安装 Hadoop 的实例的映像,并且每次启动此实例(映像)时,您是否创建其他实例(节点)?

但是这种方法需要每次创建节点时都必须配置节点?

有没有人有这方面的经验并且可以提供一些关于在 Google Compute Engine 上设置部分 Hadoop 集群的文档?

0 投票
3 回答
12778 浏览

apache-spark - 本地运行 spark 作业时出现“Scheme 没有文件系统:gs”

我正在运行 Spark 作业(版本 1.2.0),输入是 Google Clous Storage 存储桶内的文件夹(即 gs://mybucket/folder)

在我的 Mac 机器上本地运行作业时,我收到以下错误:

5932 [main] 错误 com.doit.customer.dataconverter.Phase1 - 日期:2014_09_23 的作业失败并出现错误:方案没有文件系统:gs

我知道需要做两件事才能支持 gs 路径。一种是安装 GCS 连接器,另一种是在 Hadoop 安装的 core-site.xml 中进行以下设置:

我认为我的问题来自这样一个事实,即我不确定在这种本地模式下每个部分到底需要在哪里配置。在 Intellij 项目中,我使用的是 Maven,所以我导入了 spark 库,如下所示:

,和 Hadoop 1.2.1 如下:

问题是,我不确定为 Spark 配置 hadoop 位置的位置,以及配置 hadoop conf 的位置。因此,我可能会添加到错误的 Hadoop 安装中。另外,修改文件后有什么需要重启的吗?据我所知,我的机器上没有运行 Hadoop 服务。

0 投票
1 回答
1600 浏览

apache-spark - 通过 Hadoop 输入格式示例用于 pyspark 的 BigQuery 连接器

我有一个存储在 BigQuery 表中的大型数据集,我想将其加载到 pypark RDD 中以进行 ETL 数据处理。

我意识到 BigQuery 支持 Hadoop 输入/输出格式

https://cloud.google.com/hadoop/writing-with-bigquery-connector

并且 pyspark 应该能够使用此接口,以便通过使用“newAPIHadoopRDD”方法创建 RDD。

http://spark.apache.org/docs/latest/api/python/pyspark.html

不幸的是,两端的文档似乎很少,超出了我对 Hadoop/Spark/BigQuery 的了解。有没有人知道如何做到这一点?

0 投票
1 回答
3650 浏览

hadoop - 如何在 Dataproc 集群启动时自动安装 Python 库?

集群启动时,如何在我的 Dataproc 集群上自动安装 Python 库?这将省去我手动登录主节点和/或工作节点以手动安装我需要的库的麻烦。

也很高兴知道这种自动安装是否只能在主服务器上而不是在工作人员上安装东西。

0 投票
3 回答
901 浏览

hadoop - Google Cloud Dataproc - Spark and Hadoop Version

In the Google Cloud Dataproc beta what are the versions of Spark and Hadoop?

What version of Scala is Spark compiled for?

0 投票
1 回答
791 浏览

scala - Google Cloud Dataproc - 通过 Spark 提交 Spark 作业

有没有办法从 Scala 代码中将 Spark 作业提交到 Google Cloud Dataproc?

主 URI 应该是什么样的?

应该设置哪些键值对来使用 API 密钥或密钥对进行身份验证?

0 投票
1 回答
3498 浏览

google-cloud-dataproc - 使用“--py-files”参数将 PySpark 作业提交到集群

我试图使用要使用的 python 文件的 zip 的 GCS uri(通过 --py-files 参数)和 python 文件名作为 PY_FILE 参数值提交作业。这似乎不起作用。我是否需要为 PY_FILE 值提供一些相对路径?PY_FILE 也包含在 zip 中。例如在

PY_FILE 的值应该是多少?

0 投票
1 回答
326 浏览

google-cloud-dataproc - 使用 Spark --jars 选项将 PySpark 作业提交到集群

我希望能够在提交 PySpark 作业时指定 --jars PySpark 提交选项。但是,不支持此选项。有替代方案吗?

0 投票
2 回答
1536 浏览

google-cloud-dataproc - Google Dataproc 代理在使用初始化脚本时报告失败

我正在尝试使用初始化脚本设置集群,但出现以下错误:[BAD JSON: JSON Parse error: Unexpected identifier "Google"] 在日志文件夹中,init 脚本输出日志不存在。这似乎很奇怪,因为它似乎在过去一周工作,并且错误消息似乎与 init 脚本无关,而是与集群创建的输入参数有关。我使用了以下命令:

0 投票
2 回答
1357 浏览

hadoop - 如何在使用 Google Cloud Dataproc 启动的 Spark 集群中启用 Snappy 编解码器支持?

尝试从使用Google Cloud Dataproc启动的 Spark 集群中读取 Snappy 压缩序列文件时,我收到以下警告:

在这种情况下启用 Snappy 编解码器支持的最佳方法是什么?