问题标签 [cloudera-cdh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 执行 sqoop 作业时覆盖多个 sqoop 属性
我发现在运行时覆盖 sqoop 作业属性时,我只能覆盖一个属性。
示例 1:如果我提交
它仅覆盖查询属性
示例 2:如果我提交
它仅覆盖查询属性 last-value 属性。
执行 sqoop 作业时是否可以覆盖多个 sqoop 属性?如果没有,是否有可用的解决方法?
我可以在不运行的情况下更新 Sqoop 作业吗?
hadoop - 猪压扁错误
我为我的嵌套数据尝试了这个脚本:
group_auth = group books by title;
maped = foreach group_auth generate group, books.authors;
fil = foreach maped generate flatten(books);
DUMP fil;
但我收到了这个错误:需要从关系中投影一列才能将其用作标量
任何想法?
hadoop - Map Reduce Slot Definition
I am on my way for becoming a cloudera Hadoop administrator. Since my start, I am hearing a lot about computing slots per machine in a Hadoop Cluster like defining number of Map Slots and Reduce slots.
I have searched internet for a log time for getting a Noob definition for a Map Reduce Slot but didn't find any.
I am really pissed off by going through PDF's explaining the configuration of Map Reduce.
Please explain what exactly it means when it comes to a computing slot in a Machine of a cluster.
java - 编译 Spark 类时出现“Eclipse Plugin for Scala”错误
我正在使用 CDH5.1.0 做一些简单的 Spark 编程。另外,我有 Eclipse Juno(与 VM 一起提供)并安装了 Scala IDE 插件 2.10.0。我在 IDE 中收到以下错误:
错误的符号引用。SparkContext.class 中的签名是指包 org.apache.hadoop 中不可用的术语 io。当前类路径中可能完全缺少它,或者类路径上的版本可能与编译 SparkContext.class 时使用的版本不兼容。SimpleApp.scala /MyScalaProject/src/com/test/spark1 第 10 行 Scala 问题
代码:
我在第 10 行(var conf - new org.apache.spark.SparkCon...)和第 15 行(println...)也遇到了同样的错误。
我的项目构建路径已经存在/usr/lib/spark/assembly/lib/spark-assembly-1.0.0-cdh5.1.0-hadoop2.3.0-cdh5.1.0.jar
,并且我检查了这个简单的 scala 程序的所有必要类。
linux - 用于远程作业提交的典型 Hadoop 设置
所以我对 hadoop 还是有点陌生,目前正在 Amazonaws 上建立一个小型测试集群。所以我的问题与集群结构的一些技巧有关,因此可以从远程机器提交作业。
目前我有5台机器。4 基本上是具有 NameNodes、Yarn 等的 Hadoop 集群。一台机器用作管理器机器(Cloudera Manager)。我将描述我对设置的思考过程,如果有人能指出我不清楚的点,那就太好了。
我在想什么是小型集群的最佳设置。所以我决定只公开一台经理机器,并可能用它来通过它提交所有工作。其他机器将看到彼此等,但不能从外部世界访问。我对如何做到这一点有概念性的想法,但我不确定如何正确地做到这一点,如果有人能指出我正确的方向,那就太好了。
另一个重点是,我希望能够从客户端机器(可能是 Windows)通过暴露的机器向集群提交作业。我对这个设置也不是很清楚。我是否需要在机器上安装 Hadoop 才能使用正常的 hadoop 命令,并从 Eclipse 或类似的东西中编写/提交作业。
所以总结一下我的问题是,
- 对于小型测试集群来说,这是一个好的设置吗
- 如何在没有任何 Hadoop 节点的情况下使用一台暴露的机器将作业提交/路由到集群。
- 如何设置客户端计算机以将作业提交到远程集群,以及如何在 Windows 上执行此操作的示例。此外,如果有任何理由不在此设置中使用 Windows 作为客户端计算机。
谢谢,我将不胜感激任何建议或帮助。
hadoop - CDH5 hdfs 平衡器错误
运行“hdfs balancer”,我确实看到它显示已安装的机架拓扑、过度使用和未充分使用的节点,它说“需要移动 5 TB 以使集群平衡”和“决定从 10.150.11.24 移动 10 GB 字节: 50010 到 10.150.11.164:50010"
然后我看到这个错误,
WARN balancer.Balancer: Dispatcher thread failed java.lang.NullPointerException at org.apache.hadoop.hdfs.server.balancer.Balancer.isGoodBlockCandidate(Balancer.java:1233) at org.apache.hadoop.hdfs.server.balancer.Balancer .access$400(Balancer.java:183) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source.isGoodBlockCandidate(Balancer.java:686) at org.apache.hadoop.hdfs.server.balancer.Balancer$ Source.getBlockList(Balancer.java:674) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source.dispatchBlocks(Balancer.java:776) at org.apache.hadoop.hdfs.server.balancer.Balancer$ Source.access$1600(Balancer.java:607) at org.apache.hadoop.hdfs.server.balancer.Balancer$Source$BlockMoveDispatcher.run(Balancer.java:614) at java.util.concurrent.Executors$RunnableAdapter.call (Executors.java:471) 在 java。util.concurrent.FutureTask.run(FutureTask.java:262) 在 java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145) 在 java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)在 java.lang.Thread.run(Thread.java:744)
那么这个,
5 次迭代没有移动任何块。退出...
WARN hdfs.DFSClient: DataStreamer Exception org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException): /system/balancer.id 上没有租约:文件不存在。持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。在 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:2937) 在 org.apache.hadoop.hdfs.server.namenode.FSNamesystem.analyzeFileState(FSNamesystem.java:2757) 在 org.apache .hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2665) at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:569) at org.apache.hadoop.hdfs .protocolPB.ClientNamenodeProtocolServerSideTranslatorPB.addBlock(ClientNamenodeProtocolServerSideTranslatorPB.java:440) 在 org.apache。
namenode 日志会显示这一点,
警告 org.apache.hadoop.security.UserGroupInformation: PriviledgedActionException as:hdfs (auth:SIMPLE) 原因:org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: /system/balancer.id 上没有租约: 文件不存在. 持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。
INFO org.apache.hadoop.ipc.Server:8020 上的 IPC 服务器处理程序 118,从 10.150.11.126:56490 调用 org.apache.hadoop.hdfs.protocol.ClientProtocol.addBlock Call#71 Retry#0:错误:org.apache .hadoop.hdfs.server.namenode.LeaseExpiredException:/system/balancer.id 上没有租约:文件不存在。持有人 DFSClient_NONMAPREDUCE_-201468433_1 没有任何打开的文件。
我搜索并发现了一些关于重复平衡器进程的讨论,但我在我们的集群中找不到这个问题。有人有其他想法吗?我们正在使用 cdh5.0.1
hadoop - Cloudera CDH 演示
Datastax DSE 带有组织良好的演示。Cloudera CDH5
提供类似的东西吗?
hadoop - 在 CDH 4.7 中设置 share_jobs 的 hue.ini 的位置
我正在尝试将此处描述的 share_jobs 设置设置为false
.
这里的文档说要访问http://myserver:port/dump_config
以查找 HUE 配置的位置。对我来说,它给了/var/run/cloudera-scm-agent/process/73-hue-HUE_SERVER/
.
正如您可能猜到的那样,/var/run/
每次启动时都会重新创建目录,因此hue.ini
不会保存对目录的更改,并且似乎不会影响http://myserver:port/dump_config
.
我跑过去find / -name hue.ini
看看有没有hue.ini
要换的。它返回:
我已经更改了每个文件中的配置,但无济于事。hue.ini
我需要更改的具体在哪里?
我也一直在 Cloudera Manager 中寻找jobbrowser
配置中的部分,但我找不到它。
hadoop - 在 cloudera CDH5.1.0 上运行 giraph 时出错
所以,我的集群上安装了 Hadoop 2.3.0-cdh5.1.0 ......我通过以下命令编译了 giraph ......mvn clean package -DskipTests -Dhadoop=non_secure -Phadoop_2.0.0
所以,编译工作得很好,然后 pagerank 基准测试也成功了......所以,我猜giraph 编译得很好..
现在,我正在尝试运行我的代码..
我知道,它是一个不完整的命令,但它已经在抱怨.. :-/
我的 POM 文件如下所示:
我该如何解决这个问题?谢谢
hadoop - Hadoop UI Web 界面
我有一个小问题。我需要将 Hadoop Web 界面与我们的 Web 应用程序集成。我只需要一个 Hadoop 接口,我们可以在其中运行一些 hadoop 命令,例如
为此需要一个网络界面。我已经安装了cloudera manager。我正在使用这个版本:Cloudera Enterprise Data Hub Edition Trial 5.1.1(#82 由 jenkins 在 20140725-1608 git 上构建:cb9ebb729efc7929e1968b23dc6cf776086e20a7)
我可以知道如何获得这个网络界面。我已经配置了 Oozie Web 控制台。
任何人请建议如何实现这个..