问题标签 [cloudera-cdh]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1015 问题

0 投票

1 回答

520 浏览

hadoop - CDH WebHDFS 请求重定向到 EC2 上的本地地址

我正在尝试设置一个环境，在其中我在本地运行一些后端，并从我的本地计算机向 EC2 实例发送请求。我有 CDH 4.5 设置，它工作正常。当我运行以下请求时

这适用于该区域中的任何 EC2 实例，但不适用于该区域之外。如果我在本地尝试，它将返回以下错误

不确定我可以在哪里设置它不以这种方式重定向呼叫？

非常感谢

2014-04-29T12:25:48.443

0 投票

2 回答

3329 浏览

hive - Hive 始终以本地模式运行映射作业

我们正在使用 Hive (0.13.0) 测试多节点 hadoop 集群 (2.4.0)。集群工作正常，但是当我们在 hive 中运行查询时，mapred 作业总是在本地执行。例如：

没有 hive-site.xml（实际上，除了默认值之外没有任何配置文件）我们设置 mapred.job.tracker：

并运行查询：

我们缺少什么？

hive cloudera cloudera-cdh

2014-04-29T16:02:43.770

0 投票

3 回答

30792 浏览

apache-spark - 在 CDH 5 上找不到 Spark 的 com.hadoop.compression.lzo.LzoCodec 类？

我已经解决这个问题两天了，仍然没有找到方法。

问题：我们通过最新的 CDH 5 安装的 Spark 总是抱怨 LzoCodec 类丢失，即使我在 cloudera 管理器中通过 Parcels 安装了 HADOOP_LZO。我们在 CDH 5.0.0-1.cdh5.0.0.p0.47 上运行 MR1。

尝试修复：CDH官方文档中关于“使用LZO包裹”的配置也被添加了，但问题仍然存在。

大多数谷歌搜索的帖子都提供了与上述类似的建议。我还怀疑火花正试图对抗未激活的 YARN；但我在 CMF 或有关此主题的其他帖子中找不到配置。

如果您知道如何处理它，请给我一些帮助。

apache-spark cloudera-cdh hadoop-lzo

2014-05-03T06:37:14.600

0 投票

1 回答

408 浏览

hadoop - webhdfs 打开文件 NullPointerException

我正在尝试通过 webhdfs API 从 HDFS 打开一个文件。我可以创建文件并上传它们，但是一旦我尝试打开我就会收到这个错误

使用以下命令

我从多台机器（从主节点或远程）上尝试过这个，我得到了同样的错误。它在 CHD4.6 上运行。

谢谢，

hadoop webhdfs cloudera-cdh

2014-05-09T18:00:52.310

0 投票

1 回答

224 浏览

hadoop - 编写 MapReduce 作业以同时下载文件？

不确定这是否是 MapReduce 的合适用例：我尝试实现的 OOZIE 工作流程的一部分是下载一系列以序号命名的文件（例如 1 到 20）。我希望同时下载这些文件（一次 5 个文件），所以我创建了一个 python 脚本来创建 5 个文本文件，如下所示：

然后对于工作流程的下一步，我创建了一个download.shshell 脚本，它使用逗号分隔的数字列表并下载请求的文件。在工作流程中，我在 Oozie 中设置了一个流式操作，并使用包含上面生成的文件的目录作为输入 ( mapred.input.dir)，并使用 download.sh 作为映射器命令，使用“cat”作为减速器命令。我假设 Hadoop 将为上面的每个输入文件生成一个不同的映射器。

有时这似乎可行，它会正确下载文件，但有时它只是在尝试执行时卡住了，我不知道为什么。我注意到当我增加同时下载的数量时会发生这种情况（例如，而不是每个 txt 文件的文件，我会做 20 个等等）。

所以我的问题是：这是使用 MapReduce 和 OOZIE 实现文件并行检索的正确方法吗？如果没有，这通常是如何使用 OOZIE 完成的？我试图在运行 Hive 脚本之前将我的 CSV 文件放入 HDFS，但我不确定实现这一目标的最佳方法是什么。

hadoop oozie cloudera-cdh

2014-05-09T21:16:24.237

0 投票

1 回答

932 浏览

hadoop - Pig 无法读取自己的中间数据

首先，我正在根据集群运行 Apache Pig 版本 0.11.0-cdh4.3.0（重新导出）。但是，我的构建使用 0.11.0-cdh4.5.0 我知道这不是一个明智的决定，但我认为这与我在这里遇到的问题无关，因为它都是 Pig v0.11.0

我有一个结构看起来像这样的脚本（两个自定义 udf 都返回 DataByteArray 类型，这是一个有效的 Pig 类型 afaik）：

Pig 将其拆分为两个 mapreduce 作业。我不确定 CubeDimensions 是发生在第一个还是第二个，但我怀疑它发生在第一个工作的 reduce 阶段。

所以第二个工作的映射阶段只不过是读取中间数据，这就是发生这种情况的地方：

“在流中发现意外的数据类型 49。” @ org.apache.pig.data.BinInterSedes:422

我已经看到数字是 48 和 49 并且在 BinInterSedes 类中都不存在：

http://grepcode.com/file/repository.cloudera.com/content/repositories/releases/org.apache.pig/pig/0.11.0-cdh4.3.0/org/apache/pig/data/BinInterSedes.java？ av=f

但由于这是猪自己的中间输出，我不太明白它可能出错的地方。我的自定义 UDF 都返回一个有效类型，我希望 Pig 肯定只使用它知道的类型进行存储。

任何帮助将不胜感激。

hadoop apache-pig cloudera-cdh parquet

2014-05-14T11:44:08.503

0 投票

1 回答

1151 浏览

oozie - 在 Hue (CDH4) 中重试 Oozie 工作流操作

如何在hue（CDH 4.6）中设置重试失败的oozie工作流程操作，我在工作流程编辑器中没有看到任何选项

oozie 日志

2014-05-15 14:30:01,784 INFO org.apache.oozie.command.wf.ActionStartXCommand: USER[test] GROUP[-] TOKEN[] APP[Test] JOB[0000189-140514123627882-oozie-oozi-W] ACTION[0000189-140514123627882-oozie-oozi-W@:start:] 开始操作 [0000189-140514123627882-oozie-oozi-W@:start:] 用户重试状态：userRetryCount [0], userRetryMax [0], userRetryInterval [10]

色调中的oozie confiuration：

oozie.service.LiteWorkflowStoreService.user.retry.error.code JA008,JA009,JA017,JA018,JA019,FS009,FS008 oozie.service.LiteWorkflowStoreService.user.retry.inteval 10 oozie.service.LiteWorkflowStoreService.user.retry.max 3

如何设置重试次数？有人能帮助我吗

oozie hue cloudera-cdh

2014-05-15T20:57:12.723

0 投票

1 回答

6150 浏览

hadoop - oozie hive 操作使用带有 kerberos 的 hive Metastore 服务器

我正在使用CDH5。我已经设置了一个 Hive Metastore 来使用 kerberos。即 hive-site.xml 具有以下属性

日志显示启动 hive-metastore 服务时没有错误。

我正在尝试在 oozie 工作流程中运行配置单元操作。oozie-site.xml 文件具有以下属性

并且工作流 xml 文件具有凭据标记

hive 操作是指使用“cred”属性的凭据。

当我尝试运行此工作流程时，我收到以下错误。

知道什么可能导致这个问题吗？

hadoop hive kerberos oozie cloudera-cdh

2014-05-16T13:47:59.327

0 投票

13 回答

34841 浏览

hadoop - 配置错误：namenode地址dfs.namenode.rpc-address未配置

当我尝试启动 DataNode 时出现此错误。根据我的阅读，RPC 参数仅用于 HA 配置，我没有设置（我认为）。

我的文件看起来像：

[root@datanode1 conf.cluster]# cat core-site.xml

猫 hdfs-site.xml

我正在使用最新的 CDH5 发行版。

关于如何克服这个问题的任何有用的建议？

编辑：只需使用 Cloudera 管理器。

hadoop hdfs cloudera-cdh

2014-05-18T08:19:11.667

0 投票

1 回答

419 浏览

apache-spark - 如何通过 cloudera tarball 安装 spark？

我想知道如何通过 cdh spark tarball 安装 spark.spark tarball 可以在这里找到

我在 CDH 文档中找不到任何描述。
我想尝试独立的火花和纱线上的火花。

apache-spark cloudera-cdh

2014-05-18T10:00:15.627

1 2 3 4 5 6 7 8 9 10

问题标签 [cloudera-cdh]

猫 hdfs-site.xml

Reference