问题标签 [google-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 需要有关在 Google Cloud 存储上运行 MapReduce 程序的帮助
我正在使用 GCS 连接器使用 Google Cloud Storage for Hadoop 2.3.0。
我已将 GCS.jar 添加到我的 hadoop 安装的 lib 目录中,并在hadoop-env.sh
文件中添加了 GCS 连接器的路径:
我还core-site.xml
对 Hadoop 安装文件进行了更改:
我创建的项目的计费帐户也已启用。
我创建了一个桶,桶的内容对我来说是可见的:
我曾尝试为 Hadoop 和 VM 实例创建主节点和工作节点的 Hadoop click-to-deploy 选项。
我已经安装了 gcloud 以进行身份验证登录。还创建了 Git 存储库。
我关注了 Google 上发布的 MapReduce 文章,但它对完整的指导没有帮助。
问题:我想使用部署在云上的 Hadoop 运行用 Java 开发的 MapReduce 程序?我在我的程序中为输入和输出文件提供什么路径?
我的程序在我系统上的 Hadoop 平台上运行良好。
hadoop - 使用 google-datastore-connector for hadoop 将数据从本地 hdfs(本地机器)加载到 Google Datastore 中?
我已经为 Hadoop 使用了 google-cloud-storage-connector 并且能够运行 mapreduce 作业,该作业从我的本地 HDFS(在我的本地机器上运行的 Hadoop)获取输入并将结果放在 Google Cloud Storage 存储桶中。
现在我想使用 Hadoop 的 google-datastore-connector 运行 mapreduce 作业,该作业从本地 HDFS(在我的本地机器上运行的 Hadoop)获取输入,并将结果放入 Cloud Datastore 类型(类型与数据库表同义)。
请帮助我我需要提供哪些配置以及我必须遵循哪些步骤。
r - SparkR collect method crashes with OutOfMemory on Java heap space
With SparkR, I'm trying for a PoC to collect an RDD that I created from text files which contains around 4M lines.
My Spark cluster is running in Google Cloud, is bdutil deployed and is composed with 1 master and 2 workers with 15gb of RAM and 4 cores each. My HDFS repository is based on Google Storage with gcs-connector 1.4.0. SparkR is intalled on each machine, and basic tests are working on small files.
Here is the script I use :
First time I run this, it seems to be working fine, all the tasks are run successfully, spark's ui says that the job completed, but I never get the R prompt back :
Then after a CTRL-C to get the R prompt back, I try to run the collect method again, here is the result :
I understand the exception message, but I don't understand why I am getting this the second time. Also, why the collect never returns after completing in Spark?
I Googled every piece of information I have, but I had no luck finding a solution. Any help or hint would be greatly appreciated!
Thanks
google-cloud-platform - Multiple Hadoop clusters in one Google Cloud project
Is it possible to deploy several Hadoop clusters in one Google Cloud project?
java - 使用来自 Cloud Storage 的输入映射任务仅使用一名工作人员
我正在尝试使用来自 Google Cloud Storage 的文件FileInputFormat
作为MapReduce
工作的输入。该文件是Avro
格式。
作为一个简单的测试,我使用该工具部署了一个小型 Hadoop2 集群bdutil
,由主节点和两个工作节点组成,每个节点有两个插槽。
运行作业时,文件被拆分为多个部分。可以通过查看使用偏移量加载数据的日志来验证这一事实。结果,创建了多个地图任务。到目前为止没有什么异常。
但是这些地图任务不会在工作节点之间分配。相反,两个仅在一个节点上启动,而其他的则留在该Scheduled
状态。
我希望每个工作人员上运行两个地图任务,因为数据在任何工作人员节点(它在云存储中)本地都不可用,这使得它们都是平等的候选者。
为什么会这样?
hadoop - Spark/Hadoop/Yarn 集群通信需要外部 ip?
我使用 bdutil 在 Hadoop (2.6) 集群上部署了带有 yarn-client 的 Spark (1.3.1),默认情况下,实例是使用临时外部 ips 创建的,到目前为止 spark 工作正常。出于一些安全考虑,并假设集群只能在内部访问,我从实例中删除了外部 ip;之后,spark-shell 甚至无法运行,并且似乎无法与 Yarn/Hadoop 通信,并且无限期地卡住了。只有在我添加了外部 ips 之后,spark-shell 才开始正常工作。
我的问题是,在纱线上运行火花是否需要节点的外部 ip,为什么?如果是,是否会担心安全等问题?谢谢!
api - 如何通过 Java API 在 Google Cloud Platform 上的 HDFS 中创建目录
我在谷歌云平台上运行一个 Hadoop 集群,使用谷歌云存储作为持久数据的后端。我能够从远程机器 ssh 到主节点并运行 hadoop fs 命令。无论如何,当我尝试执行以下代码时,我会收到超时错误。
代码
执行 hdfs.exists() 命令时出现超时错误。
错误
org.apache.hadoop.net.ConnectTimeoutException:调用从 gl051-win7/192.xxx.1.xxx 到 111.222.333.444.bc.googleusercontent.com:8020 套接字超时异常失败:org.apache.hadoop.net.ConnectTimeoutException :等待通道准备好连接时的 20000 毫秒超时。ch : java.nio.channels.SocketChannel[连接挂起远程=111.222.333.444.bc.googleusercontent.com/111.222.333.444:8020]
您是否知道在 Google Cloud Platform 上针对 Hadoop 使用 Java Hadoop API 的任何限制?
谢谢!
google-cloud-storage - 调用 Spark DataFrame.saveAsParquetFile() 时,已删除的 google 存储目录显示“已存在”
在我通过 Google Cloud Console 删除了一个 Google Cloud Storage 目录后(该目录是由早期的 Spark (ver 1.3.1) 作业生成的),当重新运行该作业时,它总是失败并且似乎该目录仍然存在工作; 我找不到使用 gsutil 的目录。
这是一个错误,还是我错过了什么?谢谢!
我得到的错误:
google-cloud-platform - 如何使用 GCP 免费积分来部署 Hadoop?
如何使用Google Cloud Platform 免费试用版来测试 Hadoop 集群?如果我尝试这个,我应该记住哪些最重要的事情?在免费的 Google Cloud Platform 试用期间是否会向我收费?