问题标签 [cloudera-cdh]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - CDH WebHDFS 请求重定向到 EC2 上的本地地址
我正在尝试设置一个环境,在其中我在本地运行一些后端,并从我的本地计算机向 EC2 实例发送请求。我有 CDH 4.5 设置,它工作正常。当我运行以下请求时
这适用于该区域中的任何 EC2 实例,但不适用于该区域之外。如果我在本地尝试,它将返回以下错误
不确定我可以在哪里设置它不以这种方式重定向呼叫?
非常感谢
hive - Hive 始终以本地模式运行映射作业
我们正在使用 Hive (0.13.0) 测试多节点 hadoop 集群 (2.4.0)。集群工作正常,但是当我们在 hive 中运行查询时,mapred 作业总是在本地执行。例如:
没有 hive-site.xml(实际上,除了默认值之外没有任何配置文件)我们设置 mapred.job.tracker:
并运行查询:
我们缺少什么?
apache-spark - 在 CDH 5 上找不到 Spark 的 com.hadoop.compression.lzo.LzoCodec 类?
我已经解决这个问题两天了,仍然没有找到方法。
问题:我们通过最新的 CDH 5 安装的 Spark 总是抱怨 LzoCodec 类丢失,即使我在 cloudera 管理器中通过 Parcels 安装了 HADOOP_LZO。我们在 CDH 5.0.0-1.cdh5.0.0.p0.47 上运行 MR1。
尝试修复:CDH官方文档中关于“使用LZO包裹”的配置也被添加了,但问题仍然存在。
大多数谷歌搜索的帖子都提供了与上述类似的建议。我还怀疑火花正试图对抗未激活的 YARN;但我在 CMF 或有关此主题的其他帖子中找不到配置。
如果您知道如何处理它,请给我一些帮助。
hadoop - webhdfs 打开文件 NullPointerException
我正在尝试通过 webhdfs API 从 HDFS 打开一个文件。我可以创建文件并上传它们,但是一旦我尝试打开我就会收到这个错误
使用以下命令
我从多台机器(从主节点或远程)上尝试过这个,我得到了同样的错误。它在 CHD4.6 上运行。
谢谢,
hadoop - 编写 MapReduce 作业以同时下载文件?
不确定这是否是 MapReduce 的合适用例:我尝试实现的 OOZIE 工作流程的一部分是下载一系列以序号命名的文件(例如 1 到 20)。我希望同时下载这些文件(一次 5 个文件),所以我创建了一个 python 脚本来创建 5 个文本文件,如下所示:
然后对于工作流程的下一步,我创建了一个download.sh
shell 脚本,它使用逗号分隔的数字列表并下载请求的文件。在工作流程中,我在 Oozie 中设置了一个流式操作,并使用包含上面生成的文件的目录作为输入 ( mapred.input.dir
),并使用 download.sh 作为映射器命令,使用“cat”作为减速器命令。我假设 Hadoop 将为上面的每个输入文件生成一个不同的映射器。
有时这似乎可行,它会正确下载文件,但有时它只是在尝试执行时卡住了,我不知道为什么。我注意到当我增加同时下载的数量时会发生这种情况(例如,而不是每个 txt 文件的文件,我会做 20 个等等)。
所以我的问题是:这是使用 MapReduce 和 OOZIE 实现文件并行检索的正确方法吗?如果没有,这通常是如何使用 OOZIE 完成的?我试图在运行 Hive 脚本之前将我的 CSV 文件放入 HDFS,但我不确定实现这一目标的最佳方法是什么。
hadoop - Pig 无法读取自己的中间数据
首先,我正在根据集群运行 Apache Pig 版本 0.11.0-cdh4.3.0(重新导出)。但是,我的构建使用 0.11.0-cdh4.5.0 我知道这不是一个明智的决定,但我认为这与我在这里遇到的问题无关,因为它都是 Pig v0.11.0
我有一个结构看起来像这样的脚本(两个自定义 udf 都返回 DataByteArray 类型,这是一个有效的 Pig 类型 afaik):
Pig 将其拆分为两个 mapreduce 作业。我不确定 CubeDimensions 是发生在第一个还是第二个,但我怀疑它发生在第一个工作的 reduce 阶段。
所以第二个工作的映射阶段只不过是读取中间数据,这就是发生这种情况的地方:
“在流中发现意外的数据类型 49。” @ org.apache.pig.data.BinInterSedes:422
我已经看到数字是 48 和 49 并且在 BinInterSedes 类中都不存在:
但由于这是猪自己的中间输出,我不太明白它可能出错的地方。我的自定义 UDF 都返回一个有效类型,我希望 Pig 肯定只使用它知道的类型进行存储。
任何帮助将不胜感激。
oozie - 在 Hue (CDH4) 中重试 Oozie 工作流操作
如何在hue(CDH 4.6)中设置重试失败的oozie工作流程操作,我在工作流程编辑器中没有看到任何选项
oozie 日志
2014-05-15 14:30:01,784 INFO org.apache.oozie.command.wf.ActionStartXCommand: USER[test] GROUP[-] TOKEN[] APP[Test] JOB[0000189-140514123627882-oozie-oozi-W] ACTION[0000189-140514123627882-oozie-oozi-W@:start:] 开始操作 [0000189-140514123627882-oozie-oozi-W@:start:] 用户重试状态:userRetryCount [0], userRetryMax [0], userRetryInterval [10]
色调中的oozie confiuration:
oozie.service.LiteWorkflowStoreService.user.retry.error.code JA008,JA009,JA017,JA018,JA019,FS009,FS008 oozie.service.LiteWorkflowStoreService.user.retry.inteval 10 oozie.service.LiteWorkflowStoreService.user.retry.max 3
如何设置重试次数?有人能帮助我吗
hadoop - oozie hive 操作使用带有 kerberos 的 hive Metastore 服务器
我正在使用CDH5。我已经设置了一个 Hive Metastore 来使用 kerberos。即 hive-site.xml 具有以下属性
日志显示启动 hive-metastore 服务时没有错误。
我正在尝试在 oozie 工作流程中运行配置单元操作。oozie-site.xml 文件具有以下属性
并且工作流 xml 文件具有凭据标记
hive 操作是指使用“cred”属性的凭据。
当我尝试运行此工作流程时,我收到以下错误。
知道什么可能导致这个问题吗?
hadoop - 配置错误:namenode地址dfs.namenode.rpc-address未配置
当我尝试启动 DataNode 时出现此错误。根据我的阅读,RPC 参数仅用于 HA 配置,我没有设置(我认为)。
我的文件看起来像:
[root@datanode1 conf.cluster]# cat core-site.xml
猫 hdfs-site.xml
我正在使用最新的 CDH5 发行版。
关于如何克服这个问题的任何有用的建议?
编辑:只需使用 Cloudera 管理器。
apache-spark - 如何通过 cloudera tarball 安装 spark?
我想知道如何通过 cdh spark tarball 安装 spark.spark tarball 可以在这里找到
我在 CDH 文档中找不到任何描述。
我想尝试独立的火花和纱线上的火花。