“google-hadoop”的相关标签问题

0 投票

0 回答

234 浏览

hadoop - 需要有关在 Google Cloud 存储上运行 MapReduce 程序的帮助

我正在使用 GCS 连接器使用 Google Cloud Storage for Hadoop 2.3.0。

我已将 GCS.jar 添加到我的 hadoop 安装的 lib 目录中，并在hadoop-env.sh文件中添加了 GCS 连接器的路径：

我还core-site.xml对 Hadoop 安装文件进行了更改：

我创建的项目的计费帐户也已启用。

我创建了一个桶，桶的内容对我来说是可见的：

我曾尝试为 Hadoop 和 VM 实例创建主节点和工作节点的 Hadoop click-to-deploy 选项。

我已经安装了 gcloud 以进行身份验证登录。还创建了 Git 存储库。

我关注了 Google 上发布的 MapReduce 文章，但它对完整的指导没有帮助。

问题：我想使用部署在云上的 Hadoop 运行用 Java 开发的 MapReduce 程序？我在我的程序中为输入和输出文件提供什么路径？

我的程序在我系统上的 Hadoop 平台上运行良好。

2015-06-03T02:49:14.040

0 投票

0 回答

80 浏览

hadoop - 使用 google-datastore-connector for hadoop 将数据从本地 hdfs（本地机器）加载到 Google Datastore 中？

我已经为 Hadoop 使用了 google-cloud-storage-connector 并且能够运行 mapreduce 作业，该作业从我的本地 HDFS（在我的本地机器上运行的 Hadoop）获取输入并将结果放在 Google Cloud Storage 存储桶中。

现在我想使用 Hadoop 的 google-datastore-connector 运行 mapreduce 作业，该作业从本地 HDFS（在我的本地机器上运行的 Hadoop）获取输入，并将结果放入 Cloud Datastore 类型（类型与数据库表同义）。

请帮助我我需要提供哪些配置以及我必须遵循哪些步骤。

hadoop google-cloud-datastore google-hadoop

2015-06-03T14:48:30.790

0 投票

1 回答

1933 浏览

r - SparkR collect method crashes with OutOfMemory on Java heap space

With SparkR, I'm trying for a PoC to collect an RDD that I created from text files which contains around 4M lines.

My Spark cluster is running in Google Cloud, is bdutil deployed and is composed with 1 master and 2 workers with 15gb of RAM and 4 cores each. My HDFS repository is based on Google Storage with gcs-connector 1.4.0. SparkR is intalled on each machine, and basic tests are working on small files.

Here is the script I use :

First time I run this, it seems to be working fine, all the tasks are run successfully, spark's ui says that the job completed, but I never get the R prompt back :

Then after a CTRL-C to get the R prompt back, I try to run the collect method again, here is the result :

I understand the exception message, but I don't understand why I am getting this the second time. Also, why the collect never returns after completing in Spark?

I Googled every piece of information I have, but I had no luck finding a solution. Any help or hint would be greatly appreciated!

Thanks

r apache-spark google-hadoop sparkr

2015-06-04T13:45:42.250

0 投票

1 回答

56 浏览

google-cloud-platform - Multiple Hadoop clusters in one Google Cloud project

Is it possible to deploy several Hadoop clusters in one Google Cloud project?

google-cloud-platform google-hadoop

2015-06-05T10:04:09.163

0 投票

2 回答

432 浏览

java - 数据存储区 mapreduce 是否已弃用

我刚刚安装Google Cloud platform了免费试用版。为了运行MapReduce任务DataStore，文档说要运行

但是我无法在本地获取此文件，这是有充分理由的，这种运行MapReduce作业的方式似乎已被弃用，请参阅github上的此内容。这是真的吗，是否有另一种方法可以从本地命令行创建 MapReduce 任务而不需要BigQuery？

java hadoop google-cloud-datastore google-hadoop

2015-06-08T15:14:12.610

0 投票

1 回答

120 浏览

java - 使用来自 Cloud Storage 的输入映射任务仅使用一名工作人员

我正在尝试使用来自 Google Cloud Storage 的文件FileInputFormat作为MapReduce工作的输入。该文件是Avro格式。

作为一个简单的测试，我使用该工具部署了一个小型 Hadoop2 集群bdutil，由主节点和两个工作节点组成，每个节点有两个插槽。

运行作业时，文件被拆分为多个部分。可以通过查看使用偏移量加载数据的日志来验证这一事实。结果，创建了多个地图任务。到目前为止没有什么异常。

但是这些地图任务不会在工作节点之间分配。相反，两个仅在一个节点上启动，而其他的则留在该Scheduled状态。

我希望每个工作人员上运行两个地图任务，因为数据在任何工作人员节点（它在云存储中）本地都不可用，这使得它们都是平等的候选者。

为什么会这样？

java google-cloud-storage google-cloud-platform google-hadoop

2015-06-12T17:30:32.050

0 投票

1 回答

738 浏览

hadoop - Spark/Hadoop/Yarn 集群通信需要外部 ip？

我使用 bdutil 在 Hadoop (2.6) 集群上部署了带有 yarn-client 的 Spark (1.3.1)，默认情况下，实例是使用临时外部 ips 创建的，到目前为止 spark 工作正常。出于一些安全考虑，并假设集群只能在内部访问，我从实例中删除了外部 ip；之后，spark-shell 甚至无法运行，并且似乎无法与 Yarn/Hadoop 通信，并且无限期地卡住了。只有在我添加了外部 ips 之后，spark-shell 才开始正常工作。

我的问题是，在纱线上运行火花是否需要节点的外部 ip，为什么？如果是，是否会担心安全等问题？谢谢！

hadoop apache-spark hadoop-yarn google-hadoop

2015-06-26T16:36:23.977

0 投票

1 回答

1503 浏览

api - 如何通过 Java API 在 Google Cloud Platform 上的 HDFS 中创建目录

我在谷歌云平台上运行一个 Hadoop 集群，使用谷歌云存储作为持久数据的后端。我能够从远程机器 ssh 到主节点并运行 hadoop fs 命令。无论如何，当我尝试执行以下代码时，我会收到超时错误。

代码

执行 hdfs.exists() 命令时出现超时错误。

错误

org.apache.hadoop.net.ConnectTimeoutException：调用从 gl051-win7/192.xxx.1.xxx 到 111.222.333.444.bc.googleusercontent.com:8020 套接字超时异常失败：org.apache.hadoop.net.ConnectTimeoutException ：等待通道准备好连接时的 20000 毫秒超时。ch : java.nio.channels.SocketChannel[连接挂起远程=111.222.333.444.bc.googleusercontent.com/111.222.333.444:8020]

您是否知道在 Google Cloud Platform 上针对 Hadoop 使用 Java Hadoop API 的任何限制？

谢谢！

api hadoop google-hadoop

2015-06-30T21:13:18.863

0 投票

1 回答

387 浏览

google-cloud-storage - 调用 Spark DataFrame.saveAsParquetFile() 时，已删除的 google 存储目录显示“已存在”

在我通过 Google Cloud Console 删除了一个 Google Cloud Storage 目录后（该目录是由早期的 Spark (ver 1.3.1) 作业生成的），当重新运行该作业时，它总是失败并且似乎该目录仍然存在工作; 我找不到使用 gsutil 的目录。

这是一个错误，还是我错过了什么？谢谢！

我得到的错误：

google-cloud-storage google-hadoop

2015-07-10T17:30:12.243

0 投票

1 回答

233 浏览

google-cloud-platform - 如何使用 GCP 免费积分来部署 Hadoop？

如何使用Google Cloud Platform 免费试用版来测试 Hadoop 集群？如果我尝试这个，我应该记住哪些最重要的事情？在免费的 Google Cloud Platform 试用期间是否会向我收费？

google-cloud-platform google-hadoop

2015-07-13T23:44:53.247

问题标签 [google-hadoop]

Reference