问题标签 [google-hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1185 浏览

google-hadoop - 存储在 Google Cloud Storage 上的外部表的 Hive 查询非常慢

我已经开始测试适用于 Hadoop 的 Google Cloud Storage 连接器。我发现针对它运行的蜂巢查询非常慢。

似乎单个客户端必须在开始作业之前扫描整个文件系统,1000 个文件中的 10 个,这需要 10 分钟。一旦作业实际运行,它就会运行良好。

这是配置问题还是 hive/gcs 的性质?可以做些什么来提高性能。

在 GCE 中运行 CDH 5.3.0-1

0 投票
1 回答
814 浏览

out-of-memory - 在谷歌云实例上运行 Spark 时出错

我正在使用 Apache Spark 运行独立应用程序,当我将所有数据作为文本文件加载到 RDD 时,出现以下错误:

我认为这与我使用该cache函数将整个 RDD 缓存到内存的事实有关。当我从我的代码中去掉这个函数时,我没有注意到任何变化。所以我不断收到这个错误。

我的 RDD 来自位于谷歌云存储桶中的目录中的几个文本文件。

你能帮我解决这个错误吗?

0 投票
1 回答
337 浏览

hadoop - Google Compute Engine 上的 Spark SQL 问题

我们正在使用 bdutil 1.1 来部署 Spark (1.2.0) 集群。但是,当我们启动我们的 spark 脚本时,我们遇到了一个问题:

该脚本适用于我的笔记本电脑。我在 /home/hadoop/spark-install/lib 路径中有 datanucleus-api-jdo-3.2.6.jar 。

有什么想法可能是错的吗?

0 投票
1 回答
211 浏览

hadoop - GCE Hadoop 工作节点上的 reducer 插槽数是多少?

我正在 Google Compute Engine 的 Hadoop 集群上测试一些 MapReduce 作业的扩展,并发现了一些意想不到的结果。简而言之,有人告诉我这种行为可能是因为 Hadoop 集群中的每个工作节点都有多个减速器插槽。

有人可以确认 GCE 的 Hadoop 集群上 MapReduce 作业的每个工作节点(工作虚拟机)的减速器插槽数量吗?我正在使用 hadoop2_env.sh 部署。

https://groups.google.com/a/cloudera.org/forum/#!topic/oryx-user/AFIU2PE2g8o提供了关于我正在经历的行为的背景讨论的链接,如果需要,可以获取更多详细信息。

谢谢!

0 投票
1 回答
145 浏览

python - 如何强制 bdutil 命令以 root 身份运行?

我正在从 App Engine 应用程序启动 Google Compute Engine VM。GCE VM 的启动脚本运行 python 脚本,而这些脚本又使 os.system 调用 bdutil 命令,例如

我发现有必要以 root 身份运行这些脚本,例如

--force deploy命令选项按预期工作,即shell终端显示:

但是,还包括另一个提示:

我发现我需要以 root 身份执行这些脚本,但我也在远程执行它们,无法响应终端提示。

如何在不响应最终提示的情况下强制执行此 bdutil 命令?修改 bdutil 源代码不是一个可行的选择。

0 投票
2 回答
468 浏览

hadoop - Google Cloud Engine:在命令行安装 Hadoop 期间未安装 LibSnappy 错误

我正在尝试使用命令行选项在 Google Compute Engine 上安装自定义 Hadoop 实现(>2.0) 。我的 bdutil_env.sh 文件修改后的参数如下:

./bdutil 部署失败,退出代码为 1。我在生成的 debug.info 文件中发现以下错误:

我不明白为什么会给出最初的 ssh 错误;我可以看到虚拟机并从 UI 正确登录;我的 tar.gz 也被复制到适当的地方。

我也不明白为什么没有安装 libsnappy;我有什么特别需要做的吗?shell 脚本似乎有安装它的命令,但它以某种方式失败了。

我检查了所有的虚拟机;Hadoop 没有启动。

编辑:为了解决 ssh 问题,我运行了以下命令:

gcutil --project= addfirewall --allowed=tcp:22 default-ssh

它没有任何区别。

0 投票
1 回答
217 浏览

hadoop - 将 hadoop 集群连接到多个 Google 项目中的多个 Google Cloud Storage 备份

可以一次将我的 Hadoop 集群连接到多个 Google Cloud 项目吗?

我可以通过 Google Cloud Storage Connector 在单个 Google 项目中轻松使用任何 Google Storage 存储桶,如本线程Migrating 50TB data from local Hadoop cluster to Google Cloud Storage中所述。但我找不到任何文档或示例如何从单个 map-reduce 作业连接到两个或多个 Google Cloud 项目。你有什么建议/技巧吗?

非常感谢。

0 投票
1 回答
157 浏览

google-compute-engine - bdutil:如何使用请求的图像 ID 启动 Hadoop 集群?(Ubuntu 12.04)

当我尝试使用 bdutil 命令启动 Hadoop 集群时,使用以下命令之一:

或者

我收到以下错误:

我需要做什么才能使用请求的 Ubuntu 映像启动?

0 投票
1 回答
601 浏览

r - Accessing Google Storage with SparkR on bdutil deployed cluster

I've been using bdutil for a year now, with hadoop and spark and this is quite perfect! Now I've got a little problem trying to get SparkR to work with Google Storage as HDFS.

Here is my setup : - bdutil 1.2.1 - I have deployed a cluster with 1 master and 1 worker with Spark 1.3.0 installed - Installed R and SparkR on both master and worker

When I run SparkR on master node, I'm trying to point a directory on my GS bucket serveral ways:

1) By setting the gs Filesystem scheme

2) With a HDFS URL

3) With a path as I would use with Scala on my other Spark jobs : quite the same error as 2)

I'm sure I'm missing an obvious step. If there is anyone who can help me on this matter, it would be great!

Thanks,

PS: I'm 100% sure that gcs connector is working on a classic Scala job!

0 投票
2 回答
676 浏览

java - 使用 BigQuery 仅映射 MapReduce 作业

我们创建了一个 Mapreduce 作业以将数据注入 BigQuery。我们的工作没有太多的过滤功能,所以我们想让它只做地图工作,以使其更快、更高效。

但是,BigQuery 接受的 java 类“com.google.gson.JsonObject”没有实现 hadoop Mapper 接口所需的 Writable 接口。JsonObject 也是最终的,我们不能扩展它......

关于我们如何解决这个问题的任何建议?

谢谢,