问题标签 [dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-cloud-platform - SparkNLP 约翰雪实验室 CoNLL 数据集
在创建 CoNLL 数据集时,我在 GCP Dataproc 上遇到错误。
----> 1 training_data = CoNLL().readDataset(spark, './eng.train') 2 3 training_data.show(3) 中的 TypeError Traceback(最近一次调用)
/opt/conda/anaconda/lib/python3.7/site-packages/sparknlp/training.py init (self, documentCol, sentenceCol, tokenCol, posCol, conllLabelIndex, conllPosIndex, textCol, labelCol, explodeSentences, delimiter) 113 labelCol, 114个explodeSentences,--> 115个分隔符)
TypeError:“JavaPackage”对象不可调用
如果有人遇到同样的问题并解决了它,请帮助我。
我正在使用这些版本的Spark NLP 版本 3.3.4 和 Apache Spark 版本:2.4.8
apache-spark - 使用具有 jupyter 资源但环境不可用作 jupyter 内核的 environment.yaml 创建的 Google 云 dataproc 集群
我创建了一个具有特定environment.yaml
. 这是我用来创建该集群的命令:
这样就成功创建了集群。
我已经能够通过 ssh 连接到主节点和执行程序节点,它们都有一个使用我在上面的集群创建命令中指定的环境pyspark
创建的环境。environment.yaml
所有依赖项都在那里,python 版本也是 3.9.7。
在 SSH 进入工作节点或主节点并运行后python --version
给了我Python 3.9.7
跑步conda env list
给了我
因此,激活的环境是pyspark
。
我可以停用此环境,conda deactivate
然后base
激活环境并python --version
导致Python 3.8.12
到目前为止,一切都如我所料。
现在,我从集群控制台的 Web 界面选项卡中运行了 jupyter notebook,问题是:
它只有“PySpark”(注意这与 pyspark 不同)、“Python3”、“spylon-kernel”、“R”内核可用。'R' 用于 R,'spylon-kernel' 用于 scala。
我激活“PySpark”内核并运行
输出是
'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'
我激活“Python 3”内核并运行
输出是
'3.8.12 | packaged by conda-forge | (default, Oct 12 2021, 21:59:51) \n[GCC 9.4.0]'
在这两个内核中,没有一个包environment.yaml
可用。
总之,我无法访问pyspark
由environment.yaml
.
你能帮我访问由pyspark
创建的环境environment.yaml
吗?
pyspark - 在集群模式下运行作业时在哪里可以找到数据过程中的火花日志
我在 dataproc 中运行以下代码作为作业。在“集群”模式下运行时,我无法在控制台中找到日志。
deployMode
如果我使用as属性触发作业cluster
,我看不到相应的日志。但是如果在默认模式下触发作业,即client
模式,则能够看到相应的日志。我已经给出了用于触发工作的字典。
“spark.submit.deployMode”:“集群”
在客户端模式下运行时日志未进入控制台
docker - 在 GCP 中使用 Docker 的 Dataproc 集群
嗨,当我在 Dataproc 集群上运行 pyspark 作业时出现错误我有 Dockerfile,我在其中加载依赖项,例如:货币
当我运行 pyspark 命令时,尽管添加了 docker 映像运行时,但我遇到了依赖问题(未找到模块,但我想从 docker 映像加载依赖项):
我正在使用上述属性运行以下命令
一旦我提交我的工作,我会收到以下错误
错误:
pyspark - 如何设置 sparkmagic 以通过 Livy 使用 DataProc?
我有一个在 GCP 中运行的 DataProc 集群。我为它运行了 Livy 初始化脚本,我可以通过网关接口访问 livy/sessions 链接。我为我的 sparkmagic config.json 设置了以下内容:
我可以启动内核,但如果我尝试执行一个单元格,它似乎会以登录页面回复。是否需要设置其他一些参数才能使其正常工作?
pyspark - 将 PySpark 会话连接到 DataProc
我正在尝试将本地运行的 PySpark 会话连接到 DataProc 集群。我希望能够在不下载 gcs 的情况下使用文件。我的目标是使用本地 Spark 执行临时分析,然后在我准备好扩展时切换到更大的集群。我意识到 DataProc 在 Yarn 上运行 Spark,并且我已经在本地复制了 yarn-site.xml。我还打开了从本地机器到 DataProc 主节点的 ssh 隧道,并为 yarn xml 中标识的端口设置端口转发。但它似乎不起作用,当我尝试在 Jupyter 笔记本中创建会话时,它会无限期地挂起。我看不到 stdout 或 DataProc 日志中的任何内容。有没有人在这方面取得成功?
conda - 无法在 DataProc 上安装 Conda 包
我正在尝试在创建 DataProc 集群时从 Conda Forge 安装一个包。我的命令:
最终,尽管仍然创建了集群,但这只是超时。如果我使用pip
,则包安装正确。有没有我可以查看的地方(例如日志)来查看为什么 Conda 方法不起作用?
apache-spark - 如何在 dataproc 提交命令中传递环境变量?
我希望能够在通过 dataproc submit 提交作业时设置以下环境变量:
- SPARK_HOME
- PYSPARK_PYTHON
- SPARK_CONF_DIR
- HADOOP_CONF_DIR
我怎样才能做到这一点?
apache-spark - 环境变量是否从驱动程序转移到工人?
我正在使用 Dataproc 运行我的 pyspark 作业。以下是我可以提交工作的三种方式:
dataproc submit
命令spark-submit
spark提供的实用程序- 对于小型实验,我也可以使用 spark-shell
现在,我必须修改一些环境变量。例如SPARK_HOME
.
因为dataproc submit
我可以选择分别为司机和工人修改环境变量。具体来说,我可以spark.executorEnv.[Name]
用来设置工作人员的环境变量和spark.yarn.appMasterEnv.[NAME]
设置驱动程序环境变量。
对于spark-submit
实用程序和 spark-shell,我可以在仅在 master 上导出 env 变量后提交 spark 作业。export $SPARK_HOME='path'
然后它工作正常。
我想了解 spark 在幕后为 env 变量做了什么。设置在worker上的env变量是否与master相同并且仅当它们通过在worker节点上设置显式覆盖时才被覆盖?为什么我们需要为司机和工人提供不同的环境变量?