问题标签 [google-cloud-dataproc]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1287 问题

0 投票

1 回答

829 浏览

hadoop - 对多个作业使用相同的 JavaSparkContext 以防止在 spark 驱动程序初始化上使用时间

我正在尝试在 Google Dataproc 上运行 Spark 作业。然而，正如通常所见，Spark Driver 的初始化占用了很大一部分执行时间。我想知道使用同一个 JavaSparkContext 实例在 Google Dataproc 上运行多个 Spark 作业的好方法是什么，这样我就不会因为 spark 驱动程序初始化而失去每个作业的性能。目前，我的代码如下所示：

2016-03-01T02:09:24.660

0 投票

0 回答

1076 浏览

apache-spark-sql - Dataproc 无法读取谷歌云存储中的镶木地板文件

我在谷歌云存储中有一个 parquet 文件，然后尝试如下读取：

但是，我遇到了以下异常。我注意到的一件事是 gs 路径在该异常中有所不同：丢失了存储桶名称“eng_sandbox1”。谢谢！

apache-spark-sql google-cloud-dataproc

2016-03-02T07:14:14.897

0 投票

1 回答

269 浏览

hadoop - 在 Google Dataproc 上最小化 Apache Spark 作业的初始化时间的最佳方法是什么？

我正在尝试使用 REST 服务来触发使用 Dataproc API 客户端的 Spark 作业。但是，dataproc 集群中的每个作业需要 10-15 秒来初始化 Spark 驱动程序并提交应用程序。我想知道是否有一种有效的方法可以消除从 gs 存储桶中的 JAR 文件触发的 Spark Java 作业的初始化时间？我正在考虑的一些解决方案是：

汇集可用于每个 Spark 作业的 JavaSparkContext 的单个实例
启动单个作业并在单个作业中运行基于 Spark 的处理

有没有更有效的方法？我将如何在 Google Dataproc 中实现上述方式？

hadoop apache-spark google-cloud-dataproc

2016-03-02T15:46:47.173

0 投票

1 回答

1287 浏览

apache-spark - Google Dataproc 将 Spark 日志存储在磁盘的什么位置？

当我通过 SSH 连接到主节点（托管 Spark 驱动程序的机器）时，我想通过命令行访问我的 Spark 应用程序生成的实时日志。我可以使用gcloud dataproc jobs waitDataproc Web UI 和 GCS 看到它们，但我希望能够通过命令行访问实时日志，这样我就可以grep通过它等等。

我在哪里可以找到 Spark 在驱动程序上生成的日志（以及在执行程序上！）？

apache-spark google-cloud-dataproc

2016-03-02T17:33:09.450

0 投票

1 回答

3230 浏览

c# - Request had insufficient authentication scopes [403] when creating a cluster with Google Cloud Dataproc

In Google Cloud Platform the DataProc API is enabled. I am using the same key I use to access GCS and Big query to create a new cluster per this example. I get a Request had insufficient authentication scopes error on the following line.

My complete code:

c#google-bigquery google-cloud-platform google-cloud-dataproc

2016-03-03T00:22:08.877

0 投票

1 回答

1069 浏览

apache-spark - read file in spark jobs from google cloud platform

I'm using spark on google cloud platform. Apparently I'm reading a file from the filesystem gs://<bucket>/dir/file, but the log output prompts

FileNotFoundException: `gs:/bucket/dir/file (No such file or dir exist)

The missing / is obviously the problem. How can I solve this?

error message

This is my code:

apache-spark google-cloud-storage google-cloud-platform google-cloud-dataproc

2016-03-03T02:07:40.850

0 投票

1 回答

649 浏览

java - Apache Spark 作业在本地运行，但在 Google Cloud Cluster 上抛出空指针

我有一个 Apache Spark 应用程序，到目前为止我一直在使用命令在本地机器上运行/测试：

一切运行正常，但是当我将同样的工作提交给 Google Cloud Dataproc Engine 时，它会抛出NullPointerException如下：

这个错误是从工作节点抛出的，因为它在map阶段发生。除了本地模式只是将工作节点模拟为单独的线程之外，本地模式和实际集群之间有什么区别？FitnessCalculator位于驱动程序节点上，所有方法都是静态的。我是否需要制作它Serializable以便可以将其与其他代码一起运送到工作节点？

谢谢

java apache-spark google-cloud-dataproc

2016-03-03T19:01:05.223

0 投票

2 回答

1113 浏览

python - Dataproc + python 包：分发更新版本

目前我正在 Google DataProc 上开发 Spark 应用程序。我经常需要更新 Python 包。在配置期间，我运行以下命令：

但是，在集群内分发更新包的最有效方法是什么？是否已经内置了任何自动化功能（例如 Chef）？

目前，我做了两件不同的事情：部署和引导一个新集群（需要时间）或 SSH 到每个节点，然后复制 + 安装更新的包。

python packaging google-cloud-dataproc

2016-03-12T17:11:38.173

0 投票

0 回答

1691 浏览

python - Spark/Hadoop 无法更新租约进入安全模式，关闭，然后无法连接到服务器并且无法启动

所以我在 GCP 上使用 Dataproc 建立了一个集群。1个主人，2个奴隶。我的系统使用 rabbitmq 每小时将项目放入队列，消费者通过 pyspark 为队列中的每个项目运行 spark 作业。注意：我已经对其进行了配置，因此我可以将 pyspark 导入到普通的 python 环境中，并从那里使用 spark。

经过长时间的运行，实际上并没有太长，系统打印出它不能更新它的租约，然后进入安全模式

系统会继续运行一小段时间，然后最终关闭：

我尝试再次启动该服务

看起来像这样

但随后 spark/hadoop 不再启动，打印以下内容：

如果我重新启动服务器（debian），它会再次工作，但只是在一段时间后再次成为同一个问题的牺牲品。有谁知道如何解决这个问题？我已经考虑为 NameNode 提供更多资源，但我认为这不应该阻止系统重新启动，对吧？任何人有任何见解？

python hadoop apache-spark pyspark google-cloud-dataproc

2016-03-15T20:33:28.333

0 投票

0 回答

473 浏览

hadoop - 在 Dataproc 上安装 Oozie 时出错

我首先使用 Google 提供的 Dataproc 初始化脚本（此处）在新集群上安装 Oozie，但注意到我无法点击 UI 或在命令行上运行作业。

诊断我继续删除集群，然后重新创建一个没有初始化脚本的新集群（根本没有记录）。然后我运行 sudo apt-get install oozie 得到以下错误：

有人知道为什么会这样吗？还是可能的解决方法？

hadoop oozie google-cloud-dataproc

2016-03-21T20:23:36.277

1 2 3 4 5 6 7 8 9 10

问题标签 [google-cloud-dataproc]

Reference