问题标签 [cloudera-cdh]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1025 浏览

hadoop - 执行 sqoop 作业时覆盖多个 sqoop 属性

我发现在运行时覆盖 sqoop 作业属性时,我只能覆盖一个属性。

示例 1:如果我提交

它仅覆盖查询属性

示例 2:如果我提交

它仅覆盖查询属性 last-value 属性。

  1. 执行 sqoop 作业时是否可以覆盖多个 sqoop 属性?如果没有,是否有可用的解决方法?

  2. 我可以在不运行的情况下更新 Sqoop 作业吗?

0 投票
1 回答
144 浏览

hadoop - 猪压扁错误

我为我的嵌套数据尝试了这个脚本:

group_auth = group books by title;

maped = foreach group_auth generate group, books.authors;

fil = foreach maped generate flatten(books); DUMP fil;

但我收到了这个错误:需要从关系中投影一列才能将其用作标量

任何想法?

0 投票
4 回答
6557 浏览

hadoop - Map Reduce Slot Definition

I am on my way for becoming a cloudera Hadoop administrator. Since my start, I am hearing a lot about computing slots per machine in a Hadoop Cluster like defining number of Map Slots and Reduce slots.

I have searched internet for a log time for getting a Noob definition for a Map Reduce Slot but didn't find any.

I am really pissed off by going through PDF's explaining the configuration of Map Reduce.

Please explain what exactly it means when it comes to a computing slot in a Machine of a cluster.

0 投票
1 回答
2287 浏览

java - 编译 Spark 类时出现“Eclipse Plugin for Scala”错误

我正在使用 CDH5.1.0 做一些简单的 Spark 编程。另外,我有 Eclipse Juno(与 VM 一起提供)并安装了 Scala IDE 插件 2.10.0。我在 IDE 中收到以下错误:

错误的符号引用。SparkContext.class 中的签名是指包 org.apache.hadoop 中不可用的术语 io。当前类路径中可能完全缺少它,或者类路径上的版本可能与编译 SparkContext.class 时使用的版本不兼容。SimpleApp.scala /MyScalaProject/src/com/test/spark1 第 10 行 Scala 问题

代码:

我在第 10 行(var conf - new org.apache.spark.SparkCon...)和第 15 行(println...)也遇到了同样的错误。

我的项目构建路径已经存在/usr/lib/spark/assembly/lib/spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar,并且我检查了这个简单的 scala 程序的所有必要类。

0 投票
1 回答
275 浏览

linux - 用于远程作业提交的典型 Hadoop 设置

所以我对 hadoop 还是有点陌生​​,目前正在 Amazonaws 上建立一个小型测试集群。所以我的问题与集群结构的一些技巧有关,因此可以从远程机器提交作业。

目前我有5台机器。4 基本上是具有 NameNodes、Yarn 等的 Hadoop 集群。一台机器用作管理器机器(Cloudera Manager)。我将描述我对设置的思考过程,如果有人能指出我不清楚的点,那就太好了。

我在想什么是小型集群的最佳设置。所以我决定只公开一台经理机器,并可能用它来通过它提交所有工作。其他机器将看到彼此等,但不能从外部世界访问。我对如何做到这一点有概念性的想法,但我不确定如何正确地做到这一点,如果有人能指出我正确的方向,那就太好了。

另一个重点是,我希望能够从客户端机器(可能是 Windows)通过暴露的机器向集群提交作业。我对这个设置也不是很清楚。我是否需要在机器上安装 Hadoop 才能使用正常的 hadoop 命令,并从 Eclipse 或类似的东西中编写/提交作业。

所以总结一下我的问题是,

  1. 对于小型测试集群来说,这是一个好的设置吗
  2. 如何在没有任何 Hadoop 节点的情况下使用一台暴露的机器将作业提交/路由到集群。
  3. 如何设置客户端计算机以将作业提交到远程集群,以及如何在 Windows 上执行此操作的示例。此外,如果有任何理由不在此设置中使用 Windows 作为客户端计算机。

谢谢,我将不胜感激任何建议或帮助。

0 投票
1 回答
2234 浏览

hadoop - CDH5 hdfs 平衡器错误

运行“hdfs balancer”,我确实看到它显示已安装的机架拓扑、过度使用和未充分使用的节点,它说“需要移动 5 TB 以使集群平衡”和“决定从 10.150.11.24 移动 10 GB 字节: 50010 到 10.150.11.164:50010"

然后我看到这个错误,

WARN balancer.Balancer: Dispatcher thread failed java.lang.NullPointerException at org.apache.hadoop.hdfs.server.balancer.Balancer.isGoodBlockCandidate(Balancer.java:1233) at org.apache.hadoop.hdfs.server.balancer.Balancer .access$400(Balancer.java:183) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source.isGoodBlockCandidate(Balancer.java:686) at org.apache.hadoop.hdfs.server.balancer.Balancer$ Source.getBlockList(Balancer.java:674) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source.dispatchBlocks(Balancer.java:776) at org.apache.hadoop.hdfs.server.balancer.Balancer$ Source.access$1600(Balancer.java:607) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source$BlockMoveDispatcher.run(Balancer.java:614) at java.util.concurrent.Executors$RunnableAdapter.call (Executors.java:471) 在 java。util.concurrent.FutureTask.run(FutureTask.java:262) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)在 java.lang.Thread.run(Thread.java:744)

那么这个,

5 次迭代没有移动任何块。退出...

WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): /system/balancer.id 上没有租约:文件不存在。持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。在 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:2937) 在 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.analyzeFileState(FSNamesystem.java:2757) 在 org.apache .hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2665) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:569) at org.apache.hadoop.hdfs .protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:440) 在 org.apache。

namenode 日志会显示这一点,

警告 org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs (auth:SIMPLE) 原因:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: /system/balancer.id 上没有租约: 文件不存在. 持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。

INFO org.apache.hadoop.ipc.Server:8020 上的 IPC 服务器处理程序 118,从 10.150.11.126:56490 调用 org.apache.hadoop.hdfs.protocol.ClientProtocol.addBlock Call#71 Retry#0:错误:org.apache .hadoop.hdfs.server.namenode.LeaseExpiredException:/system/balancer.id 上没有租约:文件不存在。持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。

我搜索并发现了一些关于重复平衡器进程的讨论,但我在我们的集群中找不到这个问题。有人有其他想法吗?我们正在使用 cdh5.0.1

0 投票
2 回答
156 浏览

hadoop - Cloudera CDH 演示

Datastax DSE 带有组织良好的演示Cloudera CDH5提供类似的东西吗?

0 投票
1 回答
1932 浏览

hadoop - 在 CDH 4.7 中设置 share_jobs 的 hue.ini 的位置

我正在尝试将此处描述的 share_jobs 设置设置false.

这里的文档说要访问http://myserver:port/dump_config以查找 HUE 配置的位置。对我来说,它给了/var/run/cloudera-scm-agent/process/73-hue-HUE_SERVER/.

正如您可能猜到的那样,/var/run/每次启动时都会重新创建目录,因此hue.ini不会保存对目录的更改,并且似乎不会影响http://myserver:port/dump_config.

我跑过去find / -name hue.ini看看有没有hue.ini要换的。它返回:

我已经更改了每个文件中的配置,但无济于事。hue.ini我需要更改的具体在哪里?

我也一直在 Cloudera Manager 中寻找jobbrowser配置中的部分,但我找不到它。

0 投票
1 回答
362 浏览

hadoop - 在 cloudera CDH5.1.0 上运行 giraph 时出错

所以,我的集群上安装了 Hadoop 2.3.0-cdh5.1.0 ......我通过以下命令编译了 giraph ......mvn clean package -DskipTests -Dhadoop=non_secure -Phadoop_2.0.0 所以,编译工作得很好,然后 pagerank 基准测试也成功了......所以,我猜giraph 编译得很好..

现在,我正在尝试运行我的代码..

我知道,它是一个不完整的命令,但它已经在抱怨.. :-/

我的 POM 文件如下所示:

我该如何解决这个问题?谢谢

0 投票
1 回答
598 浏览

hadoop - Hadoop UI Web 界面

我有一个小问题。我需要将 Hadoop Web 界面与我们的 Web 应用程序集成。我只需要一个 Hadoop 接口,我们可以在其中运行一些 hadoop 命令,例如

为此需要一个网络界面。我已经安装了cloudera manager。我正在使用这个版本:Cloudera Enterprise Data Hub Edition Trial 5.1.1(#82 由 jenkins 在 20140725-1608 git 上构建:cb9ebb729efc7929e1968b23dc6cf776086e20a7)

我可以知道如何获得这个网络界面。我已经配置了 Oozie Web 控制台。

任何人请建议如何实现这个..