问题标签 [google-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
234 浏览

hadoop - 需要有关在 Google Cloud 存储上运行 MapReduce 程序的帮助

我正在使用 GCS 连接器使用 Google Cloud Storage for Hadoop 2.3.0。

我已将 GCS.jar 添加到我的 hadoop 安装的 lib 目录中,并在hadoop-env.sh文件中添加了 GCS 连接器的路径:

我还core-site.xml对 Hadoop 安装文件进行了更改:

我创建的项目的计费帐户也已启用。

我创建了一个桶,桶的内容对我来说是可见的:

我曾尝试为 Hadoop 和 VM 实例创建主节点和工作节点的 Hadoop click-to-deploy 选项。

我已经安装了 gcloud 以进行身份​​验证登录。还创建了 Git 存储库。

我关注了 Google 上发布的 MapReduce 文章,但它对完整的指导没有帮助。

问题:我想使用部署在云上的 Hadoop 运行用 Java 开发的 MapReduce 程序?我在我的程序中为输入和输出文件提供什么路径?

我的程序在我系统上的 Hadoop 平台上运行良好。

0 投票
0 回答
80 浏览

hadoop - 使用 google-datastore-connector for hadoop 将数据从本地 hdfs(本地机器)加载到 Google Datastore 中?

我已经为 Hadoop 使用了 google-cloud-storage-connector 并且能够运行 mapreduce 作业,该作业从我的本地 HDFS(在我的本地机器上运行的 Hadoop)获取输入并将结果放在 Google Cloud Storage 存储桶中。

现在我想使用 Hadoop 的 google-datastore-connector 运行 mapreduce 作业,该作业从本地 HDFS(在我的本地机器上运行的 Hadoop)获取输入,并将结果放入 Cloud Datastore 类型(类型与数据库表同义)。

请帮助我我需要提供哪些配置以及我必须遵循哪些步骤。

0 投票
1 回答
1933 浏览

r - SparkR collect method crashes with OutOfMemory on Java heap space

With SparkR, I'm trying for a PoC to collect an RDD that I created from text files which contains around 4M lines.

My Spark cluster is running in Google Cloud, is bdutil deployed and is composed with 1 master and 2 workers with 15gb of RAM and 4 cores each. My HDFS repository is based on Google Storage with gcs-connector 1.4.0. SparkR is intalled on each machine, and basic tests are working on small files.

Here is the script I use :

First time I run this, it seems to be working fine, all the tasks are run successfully, spark's ui says that the job completed, but I never get the R prompt back :

Then after a CTRL-C to get the R prompt back, I try to run the collect method again, here is the result :

I understand the exception message, but I don't understand why I am getting this the second time. Also, why the collect never returns after completing in Spark?

I Googled every piece of information I have, but I had no luck finding a solution. Any help or hint would be greatly appreciated!

Thanks

0 投票
1 回答
56 浏览

google-cloud-platform - Multiple Hadoop clusters in one Google Cloud project

Is it possible to deploy several Hadoop clusters in one Google Cloud project?

0 投票
2 回答
432 浏览

java - 数据存储区 mapreduce 是否已弃用

我刚刚安装Google Cloud platform了免费试用版。为了运行MapReduce任务DataStore文档说要运行

但是我无法在本地获取此文件,这是有充分理由的,这种运行MapReduce作业的方式似乎已被弃用,请参阅github上的此内容。这是真的吗,是否有另一种方法可以从本地命令行创建 MapReduce 任务而不需要BigQuery

0 投票
1 回答
120 浏览

java - 使用来自 Cloud Storage 的输入映射任务仅使用一名工作人员

我正在尝试使用来自 Google Cloud Storage 的文件FileInputFormat作为MapReduce工作的输入。该文件是Avro格式。

作为一个简单的测试,我使用该工具部署了一个小型 Hadoop2 集群bdutil,由主节点和两个工作节点组成,每个节点有两个插槽。

运行作业时,文件被拆分为多个部分。可以通过查看使用偏移量加载数据的日志来验证这一事实。结果,创建了多个地图任务。到目前为止没有什么异常。

但是这些地图任务不会在工作节点之间分配。相反,两个仅在一个节点上启动,而其他的则留在该Scheduled状态。

我希望每个工作人员上运行两个地图任务,因为数据在任何工作人员节点(它在云存储中)本地都不可用,这使得它们都是平等的候选者。

为什么会这样?

0 投票
1 回答
738 浏览

hadoop - Spark/Hadoop/Yarn 集群通信需要外部 ip?

我使用 bdutil 在 Hadoop (2.6) 集群上部署了带有 yarn-client 的 Spark (1.3.1),默认情况下,实例是使用临时外部 ips 创建的,到目前为止 spark 工作正常。出于一些安全考虑,并假设集群只能在内部访问,我从实例中删除了外部 ip;之后,spark-shell 甚至无法运行,并且似乎无法与 Yarn/Hadoop 通信,并且无限期地卡住了。只有在我添加了外部 ips 之后,spark-shell 才开始正常工作。

我的问题是,在纱线上运行火花是否需要节点的外部 ip,为什么?如果是,是否会担心安全等问题?谢谢!

0 投票
1 回答
1503 浏览

api - 如何通过 Java API 在 Google Cloud Platform 上的 HDFS 中创建目录

我在谷歌云平台上运行一个 Hadoop 集群,使用谷歌云存储作为持久数据的后端。我能够从远程机器 ssh 到主节点并运行 hadoop fs 命令。无论如何,当我尝试执行以下代码时,我会收到超时错误。

代码

执行 hdfs.exists() 命令时出现超时错误。

错误

org.apache.hadoop.net.ConnectTimeoutException:调用从 gl051-win7/192.xxx.1.xxx 到 111.222.333.444.bc.googleusercontent.com:8020 套接字超时异常失败:org.apache.hadoop.net.ConnectTimeoutException :等待通道准备好连接时的 20000 毫秒超时。ch : java.nio.channels.SocketChannel[连接挂起远程=111.222.333.444.bc.googleusercontent.com/111.222.333.444:8020]

您是否知道在 Google Cloud Platform 上针对 Hadoop 使用 Java Hadoop API 的任何限制?

谢谢!

0 投票
1 回答
387 浏览

google-cloud-storage - 调用 Spark DataFrame.saveAsParquetFile() 时,已删除的 google 存储目录显示“已存在”

在我通过 Google Cloud Console 删除了一个 Google Cloud Storage 目录后(该目录是由早期的 Spark (ver 1.3.1) 作业生成的),当重新运行该作业时,它总是失败并且似乎该目录仍然存在工作; 我找不到使用 gsutil 的目录。

这是一个错误,还是我错过了什么?谢谢!

我得到的错误:

0 投票
1 回答
233 浏览

google-cloud-platform - 如何使用 GCP 免费积分来部署 Hadoop?

如何使用Google Cloud Platform 免费试用版来测试 Hadoop 集群?如果我尝试这个,我应该记住哪些最重要的事情?在免费的 Google Cloud Platform 试用期间是否会向我收费?