问题标签 [google-cloud-dataproc]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1699 浏览

google-cloud-bigtable - 使用 Google Dataproc 在 Bigtable 中导入 CSV 数据

我正在尝试使用 Dataproc 集群的实例将大型 CSV 文件导入 HDFS,然后将它们导出为SequenceFile格式,最后将最新的导入 Bigtable,如下所述: https ://cloud.google.com/bigtable /docs/exporting-importing

我最初将 CSV 文件作为外部表导入到 Hive 中,然后通过将它们插入到 SequenceFile 支持的表中来导出它们。

但是(可能是因为 Hive 1.0 似乎附带了 dataproc?),我遇到了这里提到的强制转换异常错误:Bigtable import error

我似乎无法在 dataproc 主 VM 上启动并运行 HBase shell 或 ZooKeeper,因此我无法从 CLI 运行简单的导出作业。

  1. 有没有另一种方法可以从 dataproc 导出与 bigtable 兼容的序列文件?

  2. 从 Dataproc VM 主节点运行 HBase 和 ZooKeeper 的正确配置是什么?

0 投票
2 回答
1176 浏览

hdfs - 为什么 Google Dataproc HDFS 名称节点处于安全模式?

我正在尝试hdfs:///home/bryan/test_file/通过将 Spark 作业提交到 Dataproc 集群来写入 HDFS 目录。

我收到名称节点处于安全模式的错误。我有一个解决方案可以让它退出安全模式,但我担心这可能是由于另一个原因而发生的。

为什么 Dataproc 集群处于安全模式?

0 投票
3 回答
2622 浏览

apache-spark - Spark - 将 JDBC 驱动程序 JAR 添加到 Google Dataproc

我正在尝试通过 JDBC 编写:

Spark 文档解释说,如果在客户端模式(Dataproc 运行的模式)下运行,则配置选项不能spark.driver.extraClassPath用于添加 JDBC 驱动程序 JAR,因为 JVM 已经启动。

我尝试在 Dataproc 的提交命令中添加 JAR 路径:

我还添加了加载驱动程序的命令:

但我仍然得到错误:

0 投票
2 回答
3585 浏览

google-bigquery - Dataproc + BigQuery 示例 - 有可用的吗?

根据 Dataproc文档,它具有“与 BigQuery 的本机和自动集成”。

我在 BigQuery 中有一张表。我想使用我创建的 Dataproc 集群(使用 PySpark 作业)读取该表并对其执行一些分析。然后将此分析的结果写回 BigQuery。您可能会问“为什么不直接在 BigQuery 中进行分析!?” - 原因是因为我们正在创建复杂的统计模型,而 SQL 级别太高,无法开发它们。我们需要 Python 或 R 之类的东西,因此 Dataproc。

他们有任何可用的 Dataproc + BigQuery 示例吗?我找不到任何东西。

0 投票
1 回答
492 浏览

google-cloud-platform - 使用 Cloud Dataproc 时出现服务帐号错误

似乎无法将服务帐户与 Dataproc 一起使用,因为在将服务帐户与 Cloud Dataproc 一起使用时,我遇到了权限错误。

例如,运行命令gcloud beta dataproc clusters list会产生一个错误,上面写着(gcloud.beta.dataproc.clusters.list) Request had insufficient authentication scopes

Cloud Dataproc 是否允许使用服务帐号?

0 投票
1 回答
676 浏览

hadoop - BigQuery Hadoop 连接器和 Dataproc

BigQuery Hadoop 连接器是否与Dataproc集群一起自动部署?

0 投票
1 回答
423 浏览

google-cloud-platform - Cloud Dataproc 错误 - GDC 中的“加载失败”

我正在尝试通过 Google Developers Console (GDC) 创建 Dataproc 集群,但在单击“创建集群”后不断收到错误“加载失败”。

  1. 计费已启用
  2. 启用的 API 包括 Dataproc

有人知道我错过了什么吗?

在此处输入图像描述 在此处输入图像描述 在此处输入图像描述

0 投票
1 回答
618 浏览

azure - 使用云服务进行并行文件处理

我有许多图像需要通过 java 程序运行以创建更多图像文件——一个令人尴尬的并行案例。每个输入文件大约 500 mb,在处理过程中需要大约 4 GB 的内存,并且需要 30 秒到 2 分钟才能运行。java 程序是多线程的,但更多的收益来自于输入文件的并行化而不是使用更多的线程。我需要每天启动几次进程(我不想手动打开/关闭集群,也不想 24/7 支付)。

我对那里的各种云选项有点迷失:

  • Amazon lambda系统资源不足(内存不足)。
  • Google Cloud DataFlow,看来我必须编写自己的管道源才能使用他们的 Cloud Storage 存储桶。很好,但是如果这不是一个合适的解决方案(可能是这样,我还不能确定),我不想浪费时间这样做。
  • 亚马逊数据管道看起来相当于谷歌云数据流。(为完整起见,在编辑中添加。
  • Google Cloud Dataproc,这不是 map/reduce hadoop-y 的情况,但可能仍然有效。不过,我宁愿不管理自己的集群。
  • 谷歌计算引擎或具有自动缩放功能的 AWS,我只是为机器上的每个核心启动进程。我有更多的管理,但没有 API 可以学习。
  • Microsoft Data Lake尚未发布,看起来像 hadoop-y。
  • Microsoft Batch似乎很合适(但我之所以这么问,是因为我对其他选项仍然感到好奇)。

谁能建议对此有什么合适的解决方案?

0 投票
3 回答
2193 浏览

google-cloud-dataproc - 创建 Cloud Dataproc 集群时出现错误 403 - 权限被拒绝

当我创建Google Cloud Dataproc集群时,我收到错误 403PERMISSION_DENIED错误。错误的确切文本是:

这个错误是什么意思,我该如何解决?

0 投票
2 回答
655 浏览

google-cloud-dataproc - 如何在 Dataproc 上安装 Jupyter/iPython?

我想在Cloud Dataproc上使用Jupyter/ iPython 。创建新集群时如何自动安装和配置它?