问题标签 [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Google Dataproc 作业从不取消、停止或终止
我已经使用 Google Dataproc 几个星期了,自从我开始使用以来,我遇到了取消和停止作业的问题。
似乎除了在集群设置中创建的服务器之外,还必须有一些服务器来跟踪和监督作业。
当我在开发控制台中点击停止时,我从来没有一个进程可以在没有错误的情况下真正停止。微调器只是不停地旋转和旋转。
集群重启或停止什么都不做,即使停止了几个小时。
只有当集群被完全删除时,作业才会消失......(但等等还有更多!)如果您创建一个具有相同设置的新集群,在之前集群的作业被删除之前,旧作业将在新集群上启动!!!
我已经看到由于 OOM 错误而自行终止的作业在集群重新启动后自行重新启动!(我这边没有编码这种容错)
如何强制停止 Dataproc 作业?(gcloud beta dataproc jobs kill
不起作用)
有谁知道这些看似相关的问题是怎么回事?
是否有特殊方法可以关闭 Spark 作业以避免这些问题?
scala - Tachyon 上 Dataproc 主复制错误
我有一个在安装了 Tachyon、Spark 和 Hadoop 的 Dataproc 主节点上运行的简单示例。
我从 Spark 写入 Tachyon 时出现复制错误。有没有办法指定它不需要复制?
我打印的日志部分只是一个警告,但会立即出现 Spark 错误。
我检查了Tachyon 配置文档,发现了可能导致此问题的原因:
鉴于这一切都在 Dataproc 主节点上,预装了 Hadoop 并且 HDFS 与 Spark 一起工作,我认为这是可以从 Tachyon 内部解决的问题。
apache-spark - Google Dataproc 上的 Spark 用户界面在哪里?
我应该使用什么端口来访问 Google Dataproc 上的 Spark UI?
我尝试了端口 4040 和 7077 以及我发现使用的许多其他端口netstat -pln
防火墙配置正确。
hadoop - 如何从机器内部在谷歌云数据处理上运行 hive?
我刚刚创建了一个谷歌云数据处理集群。一些基本的事情对我不起作用:
我正在尝试从主节点运行配置单元控制台,但它无法加载除 root 以外的任何用户(看起来有锁,控制台只是卡住了)。
但即使在使用 root 时,我也会看到一些奇怪的行为:
- “显示表格;” 显示一个名为“输入”的表
- 查询该表会引发未找到该表的异常。
目前尚不清楚哪个用户正在通过 Web ui 创建表。我创建了一个作业,执行它,但是通过控制台看不到结果。
找不到任何好的文档 - 有人对此有想法吗?
google-cloud-pubsub - 在 Dataproc 集群中启用其他身份验证范围
我正在尝试在需要连接到同一项目中的 Pub/Sub 请求订阅的 Dataproc 集群中运行 Spark (scala) 作业,但我收到以下错误消息。我认为我的 Dataproc 集群中的机器缺少“ https://www.googleapis.com/auth/pubsub ”范围。
我可以向 Dataproc 集群的机器添加额外的身份验证范围吗?
PS:如有必要,重新创建集群不会有问题。
python - 使用 pyspark 脚本从 bigquery 加载表到 spark 集群
我在 bigquery 中加载了一个数据表,我想通过 pyspark .py 文件将它导入到我的 spark 集群中。
我在Dataproc + BigQuery 示例中看到了 - 有可用的吗?有一种方法可以使用 scala 在 spark 集群中加载 bigquery 表,但是有没有办法在 pyspark 脚本中执行此操作?
csv - 在 pyspark 中加载 Databricks csv 库
我尝试在使用 Google Dataproc 创建的 spark 集群上加载 databricks csv 库(参见https://github.com/databricks/spark-csv )。而所有这些都使用 PySpark。
我启动 PySpark 并输入:
但我得到了这个答案:
这与文档https://github.com/databricks/spark-csv与https://github.com/databricks/spark-csv/issues/59上的 post lebigot 相矛盾
有人能帮我吗?
import - 在 google-dataproc 的 Spark 集群中的 pyspark 作业中使用外部库
我有一个通过 google dataproc 创建的 spark 集群。我希望能够使用databricks中的csv 库(请参阅https://github.com/databricks/spark-csv)。所以我首先像这样测试它:
我与集群的主节点启动了 ssh 会话,然后输入:
然后它启动了一个 pyspark shell,我在其中输入:
它奏效了。
我的下一步是使用以下命令从我的主机启动此作业:
但在这里它不起作用,我得到一个错误。我想是因为我没有给出--packages com.databricks:spark-csv_2.11:1.2.0
作为论据,但我尝试了 10 种不同的方式来给出它,但我没有成功。
我的问题是:
- 是我输入后安装的databricks csv库
pyspark --packages com.databricks:spark-csv_2.11:1.2.0
- 我可以写一行
job.py
来导入它吗? - 或者我应该为我的 gcloud 命令提供哪些参数来导入或安装它?
google-cloud-dataproc - 清理 BigQueryInputFormat 临时文件
我在 spark 作业中使用 BigQueryInputFormat,将数据直接从 Bigquery 加载到 RDD 中。文档说明您应该使用以下命令清理临时文件:
BigQueryInputFormat.cleanupJob(作业)
但是,从 Spark 工作中,当“工作”是 hadoop 工作时,我该怎么做?
谢谢,卢克
google-cloud-platform - Cloud Dataproc 和其他 Google Cloud 产品的身份验证错误
我正在尝试将Google Cloud PubSub与我的Google Cloud Dataproc集群一起使用,但我收到了如下所示的身份验证范围错误:
如何解决此问题,以便在 Cloud Dataproc 上运行的 Spark/Hadoop 项目中使用 PubSub(和其他 Google Cloud)产品?