问题标签 [dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
22 浏览

hadoop - 如何在 Google Cloud Platform 上查看 Dataproc 作业的输出文件

如何从我的 dataproc 作业中查看输出文件的内容?

这是我需要在为 dataproc .jar 文件编写的代码中更改的内容吗?

这是我用于作业输出的存储桶

0 投票
0 回答
27 浏览

google-cloud-platform - SparkNLP 约翰雪实验室 CoNLL 数据集

在创建 CoNLL 数据集时,我在 GCP Dataproc 上遇到错误。


----> 1 training_data = CoNLL().readDataset(spark, './eng.train') 2 3 training_data.show(3) 中的 TypeError Traceback(最近一次调用)

/opt/conda/anaconda/lib/python3.7/site-packages/sparknlp/training.py init (self, documentCol, sentenceCol, tokenCol, posCol, conllLabelIndex, conllPosIndex, textCol, labelCol, explodeSentences, delimiter) 113 labelCol, 114个explodeSentences,--> 115个分隔符)

TypeError:“JavaPackage”对象不可调用

如果有人遇到同样的问题并解决了它,请帮助我。

我正在使用这些版本的Spark NLP 版本 3.3.4 和 Apache Spark 版本:2.4.8

0 投票
0 回答
103 浏览

apache-spark - 使用具有 jupyter 资源但环境不可用作 jupyter 内核的 environment.yaml 创建的 Google 云 dataproc 集群

我创建了一个具有特定environment.yaml. 这是我用来创建该集群的命令:

这样就成功创建了集群。

我已经能够通过 ssh 连接到主节点和执行程序节点,它们都有一个使用我在上面的集群创建命令中指定的环境pyspark创建的环境。environment.yaml所有依赖项都在那里,python 版本也是 3.9.7。

在 SSH 进入工作节点或主节点并运行后python --version给了我Python 3.9.7

跑步conda env list给了我

因此,激活的环境是pyspark

我可以停用此环境,conda deactivate然后base激活环境并python --version导致Python 3.8.12

到目前为止,一切都如我所料。

现在,我从集群控制台的 Web 界面选项卡中运行了 jupyter notebook,问题是:

它只有“PySpark”(注意这与 pyspark 不同)、“Python3”、“spylon-kernel”、“R”内核可用。'R' 用于 R,'spylon-kernel' 用于 scala。

我激活“PySpark”内核并运行

输出是

'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'

我激活“Python 3”内核并运行

输出是 '3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'

在这两个内核中,没有一个包environment.yaml可用。

总之,我无法访问pysparkenvironment.yaml.

你能帮我访问由pyspark创建的环境environment.yaml吗?

0 投票
2 回答
110 浏览

pyspark - 在集群模式下运行作业时在哪里可以找到数据过程中的火花日志

我在 dataproc 中运行以下代码作为作业。在“集群”模式下运行时,我无法在控制台中找到日志。

deployMode如果我使用as属性触发作业cluster,我看不到相应的日志。但是如果在默认模式下触发作业,即client模式,则能够看到相应的日志。我已经给出了用于触发工作的字典。

“spark.submit.deployMode”:“集群”

在客户端模式下运行时日志未进入控制台

0 投票
0 回答
44 浏览

docker - 在 GCP 中使用 Docker 的 Dataproc 集群

嗨,当我在 Dataproc 集群上运行 pyspark 作业时出现错误我有 Dockerfile,我在其中加载依赖项,例如:货币

当我运行 pyspark 命令时,尽管添加了 docker 映像运行时,但我遇到了依赖问题(未找到模块,但我想从 docker 映像加载依赖项):

我正在使用上述属性运行以下命令

一旦我提交我的工作,我会收到以下错误
错误:

0 投票
1 回答
29 浏览

pyspark - 如何设置 sparkmagic 以通过 Livy 使用 DataProc?

我有一个在 GCP 中运行的 DataProc 集群。我为它运行了 Livy 初始化脚本,我可以通过网关接口访问 livy/sessions 链接。我为我的 sparkmagic config.json 设置了以下内容:

我可以启动内核,但如果我尝试执行一个单元格,它似乎会以登录页面回复。是否需要设置其他一些参数才能使其正常工作?

0 投票
1 回答
25 浏览

pyspark - 将 PySpark 会话连接到 DataProc

我正在尝试将本地运行的 PySpark 会话连接到 DataProc 集群。我希望能够在不下载 gcs 的情况下使用文件。我的目标是使用本地 Spark 执行临时分析,然后在我准备好扩展时切换到更大的集群。我意识到 DataProc 在 Yarn 上运行 Spark,并且我已经在本地复制了 yarn-site.xml。我还打开了从本地机器到 DataProc 主节点的 ssh 隧道,并为 yarn xml 中标识的端口设置端口转发。但它似乎不起作用,当我尝试在 Jupyter 笔记本中创建会话时,它会无限期地挂起。我看不到 stdout 或 DataProc 日志中的任何内容。有没有人在这方面取得成功?

0 投票
0 回答
22 浏览

conda - 无法在 DataProc 上安装 Conda 包

我正在尝试在创建 DataProc 集群时从 Conda Forge 安装一个包。我的命令:

最终,尽管仍然创建了集群,但这只是超时。如果我使用pip,则包安装正确。有没有我可以查看的地方(例如日志)来查看为什么 Conda 方法不起作用?

0 投票
1 回答
93 浏览

apache-spark - 如何在 dataproc 提交命令中传递环境变量?

我希望能够在通过 dataproc submit 提交作业时设置以下环境变量:

  1. SPARK_HOME
  2. PYSPARK_PYTHON
  3. SPARK_CONF_DIR
  4. HADOOP_CONF_DIR

我怎样才能做到这一点?

0 投票
0 回答
84 浏览

apache-spark - 环境变量是否从驱动程序转移到工人?

我正在使用 Dataproc 运行我的 pyspark 作业。以下是我可以提交工作的三种方式:

  1. dataproc submit命令
  2. spark-submitspark提供的实用程序
  3. 对于小型实验,我也可以使用 spark-shell

现在,我必须修改一些环境变量。例如SPARK_HOME.

因为dataproc submit我可以选择分别为司机和工人修改环境变量。具体来说,我可以spark.executorEnv.[Name]用来设置工作人员的环境变量和spark.yarn.appMasterEnv.[NAME]设置驱动程序环境变量。

对于spark-submit实用程序和 spark-shell,我可以在仅在 master 上导出 env 变量后提交 spark 作业。export $SPARK_HOME='path'然后它工作正常。

我想了解 spark 在幕后为 env 变量做了什么。设置在worker上的env变量是否与master相同并且仅当它们通过在worker节点上设置显式覆盖时才被覆盖?为什么我们需要为司机和工人提供不同的环境变量?