问题标签 [hadoop-streaming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
7539 浏览

java - 如何读取hadoop顺序文件?

我有一个顺序文件,它是 hadoop map-reduce 作业的输出。在这个文件中,数据以键值对的形式写入,而值本身就是一个映射。我想将该值作为 MAP 对象读取,以便进一步处理它。

程序的输出: Key is: [this is key] value is: {abc=839177, xyz=548498, lmn=2, pqr=1}

在这里,我将值作为字符串,但我希望它作为地图的对象。

0 投票
3 回答
14354 浏览

java - 从文件中按 Hadoop 中的值排序

我有一个文件,其中包含一个字符串,然后是一个空格,然后每行都有一个数字。

例子:

我需要按降序对数字进行排序,然后将结果放入为数字分配排名的文件中。所以我的输出应该是一个包含以下格式的文件:

有谁知道,我怎么能在 Hadoop 中做到这一点?我正在将 java 与 Hadoop 一起使用。

0 投票
2 回答
2278 浏览

hadoop - hadoop真的能处理datanode故障吗?

在我们的 hadoop 设置中,当一个数据节点崩溃(或)hadoop 在数据节点上没有响应时,reduce 任务失败,无法从失败的节点读取(下面的异常)。我认为 hadoop 处理数据节点故障,这是创建 hadoop 的主要目的。有人在他们的集群上面临类似的问题吗?如果您有解决方案,请告诉我。

0 投票
2 回答
1968 浏览

hadoop - 使用内部 IP 配置从站的主机名 - 多个 NIC

在我的 Hadoop 环境中,我需要配置我的从节点,以便当它们在 map/reduce 作业的中间进行通信时,它们使用内部 IP 而不是从主机名中获取的外部 IP。

有什么方法可以设置我的 Hadoop 配置文件以指定节点应使用内部 IP 而不是外部 IP 进行通信?我已经在我的 core-site.xml、master 和 slave 文件中使用了内部 IP。

我做了一些研究,我看到人们提到“slave.host.name”参数,但是我会将这个参数放在哪个配置文件中?这个问题还有其他解决方案吗?

谢谢!

0 投票
1 回答
2226 浏览

hadoop - 当任务被杀死时,如何告诉 Hadoop 不要从 HDFS 中删除临时目录?

默认情况下,hadoop map 任务将处理后的记录写入临时目录中的文件${mapred.output.dir}/_temporary/_${taskid}。这些文件坐在这里,直到 FileCommiter 将它们移动到${mapred.output.dir}(任务成功完成后)。我有一种情况,在setup()地图任务中,我需要在上面提供的临时目录下创建文件,我会在其中编写一些稍后在其他地方使用的与流程相关的数据。但是,当 hadoop 任务被终止时,临时目录会从 HDFS 中删除。

任何人都知道是否可以告诉 Hadoop 在任务被终止后不要删除此目录,以及如何实现?我想应该提供一些我可以配置的属性。

问候

0 投票
1 回答
1231 浏览

mahout - 无法使用 hadoop 流读取 Mahout 生成的序列文件

我正在尝试流式传输由 Mahout 示例之一生成的序列文件以查看其内容:

作业成功启动并最终终止:

我想知道我的流式 jar 文件是否有问题,是否需要明确指向具有此类的 Mahout jar(尝试将 HADOOP_CLASSPATH 设置为 mahout-core-0.5-cdh3u2.jar 的位置但不起作用),或者也许甚至是别的东西?

任何帮助表示赞赏。谢谢。

0 投票
2 回答
1929 浏览

hadoop - Hadoop Streaming - 设置每个节点的最大映射数

是否可以设置每个节点运行的地图任务数。
我正在使用 Hadoop Streaming 来抓取数据,每个节点只需要一个地图任务来避免阻塞。

谢谢,

0 投票
3 回答
502 浏览

hadoop - 如何判断我是要在集群上还是在“本地”模式下运行 Hadoop 流作业?

当盒子上没有运行 hadoop 实例时,Hadoop 流将在“本地”模式下运行进程。我有一个 shell 脚本,它按顺序控制一组 hadoop 流作业,我需要根据作业是否在本地运行来调整从 HDFS 复制文件到本地的条件。是否有完成此测试的标准方法?我可以做一个“ps aux | grep something”,但这似乎是临时的。

0 投票
1 回答
108 浏览

hadoop - Hadoop 中的客户分区

我有一个文件,其中有类似的记录chicken 10。我想根据 而不是对数据进行分区,/t以便我可以将chicken其作为我的键和10我的价值。

我认为我们需要改变getPartition方法,但我无法正确地做到这一点。

有没有人有这方面的例子?

0 投票
1 回答
2752 浏览

hadoop - 如何读取 Hadoop Sequentil 文件作为 Hadoop 作业的输入?

我有一个顺序文件,它的键值对类型为"org.apache.hadoop.typedbytes.TypedBytesWritable",我必须提供这个文件作为 Hadoop 作业的输入,并且只能在地图中处理它。我的意思是我不必做任何需要减少的事情。

1) 我将如何将 FileInputFormat 指定为 SequentialFile ?

2) map 函数的签名是什么。

3) 我将如何从 map 而不是 Reduce 获得输出?