“cloudera-cdh”的相关标签问题

0 投票

1 回答

1025 浏览

hadoop - 执行 sqoop 作业时覆盖多个 sqoop 属性

我发现在运行时覆盖 sqoop 作业属性时，我只能覆盖一个属性。

示例 1：如果我提交

它仅覆盖查询属性

示例 2：如果我提交

它仅覆盖查询属性 last-value 属性。

执行 sqoop 作业时是否可以覆盖多个 sqoop 属性？如果没有，是否有可用的解决方法？
我可以在不运行的情况下更新 Sqoop 作业吗？

2014-08-15T16:43:40.757

0 投票

1 回答

144 浏览

hadoop - 猪压扁错误

我为我的嵌套数据尝试了这个脚本：

group_auth = group books by title;

maped = foreach group_auth generate group, books.authors;

fil = foreach maped generate flatten(books); DUMP fil;

但我收到了这个错误：需要从关系中投影一列才能将其用作标量

任何想法？

hadoop apache-pig flatten cloudera-cdh

2014-08-15T20:13:50.987

0 投票

4 回答

6557 浏览

hadoop - Map Reduce Slot Definition

I am on my way for becoming a cloudera Hadoop administrator. Since my start, I am hearing a lot about computing slots per machine in a Hadoop Cluster like defining number of Map Slots and Reduce slots.

I have searched internet for a log time for getting a Noob definition for a Map Reduce Slot but didn't find any.

I am really pissed off by going through PDF's explaining the configuration of Map Reduce.

Please explain what exactly it means when it comes to a computing slot in a Machine of a cluster.

hadoop mapreduce cluster-computing job-scheduling cloudera-cdh

2014-08-16T12:22:28.157

0 投票

1 回答

2287 浏览

java - 编译 Spark 类时出现“Eclipse Plugin for Scala”错误

我正在使用 CDH5.1.0 做一些简单的 Spark 编程。另外，我有 Eclipse Juno（与 VM 一起提供）并安装了 Scala IDE 插件 2.10.0。我在 IDE 中收到以下错误：

错误的符号引用。SparkContext.class 中的签名是指包 org.apache.hadoop 中不可用的术语 io。当前类路径中可能完全缺少它，或者类路径上的版本可能与编译 SparkContext.class 时使用的版本不兼容。SimpleApp.scala /MyScalaProject/src/com/test/spark1 第 10 行 Scala 问题

代码：

我在第 10 行（var conf - new org.apache.spark.SparkCon...）和第 15 行（println...）也遇到了同样的错误。

我的项目构建路径已经存在/usr/lib/spark/assembly/lib/spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar，并且我检查了这个简单的 scala 程序的所有必要类。

java scala apache-spark cloudera-cdh

2014-08-18T02:28:48.167

0 投票

1 回答

275 浏览

linux - 用于远程作业提交的典型 Hadoop 设置

所以我对 hadoop 还是有点陌生，目前正在 Amazonaws 上建立一个小型测试集群。所以我的问题与集群结构的一些技巧有关，因此可以从远程机器提交作业。

目前我有5台机器。4 基本上是具有 NameNodes、Yarn 等的 Hadoop 集群。一台机器用作管理器机器（Cloudera Manager）。我将描述我对设置的思考过程，如果有人能指出我不清楚的点，那就太好了。

我在想什么是小型集群的最佳设置。所以我决定只公开一台经理机器，并可能用它来通过它提交所有工作。其他机器将看到彼此等，但不能从外部世界访问。我对如何做到这一点有概念性的想法，但我不确定如何正确地做到这一点，如果有人能指出我正确的方向，那就太好了。

另一个重点是，我希望能够从客户端机器（可能是 Windows）通过暴露的机器向集群提交作业。我对这个设置也不是很清楚。我是否需要在机器上安装 Hadoop 才能使用正常的 hadoop 命令，并从 Eclipse 或类似的东西中编写/提交作业。

所以总结一下我的问题是，

对于小型测试集群来说，这是一个好的设置吗
如何在没有任何 Hadoop 节点的情况下使用一台暴露的机器将作业提交/路由到集群。
如何设置客户端计算机以将作业提交到远程集群，以及如何在 Windows 上执行此操作的示例。此外，如果有任何理由不在此设置中使用 Windows 作为客户端计算机。

谢谢，我将不胜感激任何建议或帮助。

linux windows hadoop cloudera-cdh cloudera-manager

2014-08-19T22:18:06.753

0 投票

1 回答

2234 浏览

hadoop - CDH5 hdfs 平衡器错误

运行“hdfs balancer”，我确实看到它显示已安装的机架拓扑、过度使用和未充分使用的节点，它说“需要移动 5 TB 以使集群平衡”和“决定从 10.150.11.24 移动 10 GB 字节： 50010 到 10.150.11.164:50010"

然后我看到这个错误，

WARN balancer.Balancer: Dispatcher thread failed java.lang.NullPointerException at org.apache.hadoop.hdfs.server.balancer.Balancer.isGoodBlockCandidate(Balancer.java:1233) at org.apache.hadoop.hdfs.server.balancer.Balancer .access$400(Balancer.java:183) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source.isGoodBlockCandidate(Balancer.java:686) at org.apache.hadoop.hdfs.server.balancer.Balancer$ Source.getBlockList(Balancer.java:674) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source.dispatchBlocks(Balancer.java:776) at org.apache.hadoop.hdfs.server.balancer.Balancer$ Source.access$1600(Balancer.java:607) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source$BlockMoveDispatcher.run(Balancer.java:614) at java.util.concurrent.Executors$RunnableAdapter.call (Executors.java:471) 在 java。util.concurrent.FutureTask.run(FutureTask.java:262) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)在 java.lang.Thread.run(Thread.java:744)

那么这个，

5 次迭代没有移动任何块。退出...

WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): /system/balancer.id 上没有租约：文件不存在。持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。在 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:2937) 在 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.analyzeFileState(FSNamesystem.java:2757) 在 org.apache .hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2665) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:569) at org.apache.hadoop.hdfs .protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:440) 在 org.apache。

namenode 日志会显示这一点，

警告 org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs (auth:SIMPLE) 原因:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: /system/balancer.id 上没有租约: 文件不存在. 持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。

INFO org.apache.hadoop.ipc.Server：8020 上的 IPC 服务器处理程序 118，从 10.150.11.126:56490 调用 org.apache.hadoop.hdfs.protocol.ClientProtocol.addBlock Call#71 Retry#0：错误：org.apache .hadoop.hdfs.server.namenode.LeaseExpiredException：/system/balancer.id 上没有租约：文件不存在。持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。

我搜索并发现了一些关于重复平衡器进程的讨论，但我在我们的集群中找不到这个问题。有人有其他想法吗？我们正在使用 cdh5.0.1

hadoop cloudera cloudera-cdh

2014-08-19T23:04:31.147

0 投票

2 回答

156 浏览

hadoop - Cloudera CDH 演示

Datastax DSE 带有组织良好的演示。Cloudera CDH5提供类似的东西吗？

hadoop cloudera-cdh

2014-08-20T10:38:39.473

0 投票

1 回答

1932 浏览

hadoop - 在 CDH 4.7 中设置 share_jobs 的 hue.ini 的位置

我正在尝试将此处描述的 share_jobs 设置设置为false.

这里的文档说要访问http://myserver:port/dump_config以查找 HUE 配置的位置。对我来说，它给了/var/run/cloudera-scm-agent/process/73-hue-HUE_SERVER/.

正如您可能猜到的那样，/var/run/每次启动时都会重新创建目录，因此hue.ini不会保存对目录的更改，并且似乎不会影响http://myserver:port/dump_config.

我跑过去find / -name hue.ini看看有没有hue.ini要换的。它返回：

我已经更改了每个文件中的配置，但无济于事。hue.ini我需要更改的具体在哪里？

我也一直在 Cloudera Manager 中寻找jobbrowser配置中的部分，但我找不到它。

hadoop cloudera hue cloudera-cdh cloudera-manager

2014-08-21T15:40:24.887

0 投票

1 回答

362 浏览

hadoop - 在 cloudera CDH5.1.0 上运行 giraph 时出错

所以，我的集群上安装了 Hadoop 2.3.0-cdh5.1.0 ......我通过以下命令编译了 giraph ......mvn clean package -DskipTests -Dhadoop=non_secure -Phadoop_2.0.0 所以，编译工作得很好，然后 pagerank 基准测试也成功了......所以，我猜giraph 编译得很好..

现在，我正在尝试运行我的代码..

我知道，它是一个不完整的命令，但它已经在抱怨.. :-/

我的 POM 文件如下所示：

我该如何解决这个问题？谢谢

hadoop cloudera-cdh giraph

2014-08-22T04:58:28.433

0 投票

1 回答

598 浏览

hadoop - Hadoop UI Web 界面

我有一个小问题。我需要将 Hadoop Web 界面与我们的 Web 应用程序集成。我只需要一个 Hadoop 接口，我们可以在其中运行一些 hadoop 命令，例如

为此需要一个网络界面。我已经安装了cloudera manager。我正在使用这个版本：Cloudera Enterprise Data Hub Edition Trial 5.1.1（#82 由 jenkins 在 20140725-1608 git 上构建：cb9ebb729efc7929e1968b23dc6cf776086e20a7）

我可以知道如何获得这个网络界面。我已经配置了 Oozie Web 控制台。

任何人请建议如何实现这个..

hadoop cloudera hadoop-plugins cloudera-cdh cloudera-manager

2014-08-22T06:38:00.533

问题标签 [cloudera-cdh]

Reference