问题标签 [google-cloud-dataproc]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 对多个作业使用相同的 JavaSparkContext 以防止在 spark 驱动程序初始化上使用时间
我正在尝试在 Google Dataproc 上运行 Spark 作业。然而,正如通常所见,Spark Driver 的初始化占用了很大一部分执行时间。我想知道使用同一个 JavaSparkContext 实例在 Google Dataproc 上运行多个 Spark 作业的好方法是什么,这样我就不会因为 spark 驱动程序初始化而失去每个作业的性能。目前,我的代码如下所示:
apache-spark-sql - Dataproc 无法读取谷歌云存储中的镶木地板文件
我在谷歌云存储中有一个 parquet 文件,然后尝试如下读取:
但是,我遇到了以下异常。我注意到的一件事是 gs 路径在该异常中有所不同:丢失了存储桶名称“eng_sandbox1”。谢谢!
hadoop - 在 Google Dataproc 上最小化 Apache Spark 作业的初始化时间的最佳方法是什么?
我正在尝试使用 REST 服务来触发使用 Dataproc API 客户端的 Spark 作业。但是,dataproc 集群中的每个作业需要 10-15 秒来初始化 Spark 驱动程序并提交应用程序。我想知道是否有一种有效的方法可以消除从 gs 存储桶中的 JAR 文件触发的 Spark Java 作业的初始化时间?我正在考虑的一些解决方案是:
- 汇集可用于每个 Spark 作业的 JavaSparkContext 的单个实例
- 启动单个作业并在单个作业中运行基于 Spark 的处理
有没有更有效的方法?我将如何在 Google Dataproc 中实现上述方式?
apache-spark - Google Dataproc 将 Spark 日志存储在磁盘的什么位置?
当我通过 SSH 连接到主节点(托管 Spark 驱动程序的机器)时,我想通过命令行访问我的 Spark 应用程序生成的实时日志。我可以使用gcloud dataproc jobs wait
Dataproc Web UI 和 GCS 看到它们,但我希望能够通过命令行访问实时日志,这样我就可以grep
通过它等等。
我在哪里可以找到 Spark 在驱动程序上生成的日志(以及在执行程序上!)?
c# - Request had insufficient authentication scopes [403] when creating a cluster with Google Cloud Dataproc
In Google Cloud Platform the DataProc API is enabled. I am using the same key I use to access GCS and Big query to create a new cluster per this example. I get a Request had insufficient authentication scopes
error on the following line.
My complete code:
apache-spark - read file in spark jobs from google cloud platform
I'm using spark on google cloud platform.
Apparently I'm reading a file from the filesystem gs://<bucket>/dir/file
, but the log output prompts
FileNotFoundException: `gs:/bucket/dir/file (No such file or dir exist)
The missing /
is obviously the problem. How can I solve this?
This is my code:
java - Apache Spark 作业在本地运行,但在 Google Cloud Cluster 上抛出空指针
我有一个 Apache Spark 应用程序,到目前为止我一直在使用命令在本地机器上运行/测试:
一切运行正常,但是当我将同样的工作提交给 Google Cloud Dataproc Engine 时,它会抛出NullPointerException
如下:
这个错误是从工作节点抛出的,因为它在map
阶段发生。除了本地模式只是将工作节点模拟为单独的线程之外,本地模式和实际集群之间有什么区别?FitnessCalculator
位于驱动程序节点上,所有方法都是静态的。我是否需要制作它Serializable
以便可以将其与其他代码一起运送到工作节点?
谢谢
python - Dataproc + python 包:分发更新版本
目前我正在 Google DataProc 上开发 Spark 应用程序。我经常需要更新 Python 包。在配置期间,我运行以下命令:
但是,在集群内分发更新包的最有效方法是什么?是否已经内置了任何自动化功能(例如 Chef)?
目前,我做了两件不同的事情:部署和引导一个新集群(需要时间)或 SSH 到每个节点,然后复制 + 安装更新的包。
python - Spark/Hadoop 无法更新租约进入安全模式,关闭,然后无法连接到服务器并且无法启动
所以我在 GCP 上使用 Dataproc 建立了一个集群。1个主人,2个奴隶。我的系统使用 rabbitmq 每小时将项目放入队列,消费者通过 pyspark 为队列中的每个项目运行 spark 作业。注意:我已经对其进行了配置,因此我可以将 pyspark 导入到普通的 python 环境中,并从那里使用 spark。
经过长时间的运行,实际上并没有太长,系统打印出它不能更新它的租约,然后进入安全模式
系统会继续运行一小段时间,然后最终关闭:
我尝试再次启动该服务
看起来像这样
但随后 spark/hadoop 不再启动,打印以下内容:
如果我重新启动服务器(debian),它会再次工作,但只是在一段时间后再次成为同一个问题的牺牲品。有谁知道如何解决这个问题?我已经考虑为 NameNode 提供更多资源,但我认为这不应该阻止系统重新启动,对吧?任何人有任何见解?
hadoop - 在 Dataproc 上安装 Oozie 时出错
我首先使用 Google 提供的 Dataproc 初始化脚本(此处)在新集群上安装 Oozie,但注意到我无法点击 UI 或在命令行上运行作业。
诊断我继续删除集群,然后重新创建一个没有初始化脚本的新集群(根本没有记录)。然后我运行 sudo apt-get install oozie 得到以下错误:
有人知道为什么会这样吗?还是可能的解决方法?