问题标签 [hadoop-streaming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

854 问题

0 投票

1 回答

7539 浏览

java - 如何读取hadoop顺序文件？

我有一个顺序文件，它是 hadoop map-reduce 作业的输出。在这个文件中，数据以键值对的形式写入，而值本身就是一个映射。我想将该值作为 MAP 对象读取，以便进一步处理它。

程序的输出： Key is: [this is key] value is: {abc=839177, xyz=548498, lmn=2, pqr=1}

在这里，我将值作为字符串，但我希望它作为地图的对象。

2011-11-25T05:54:46.577

0 投票

3 回答

14354 浏览

java - 从文件中按 Hadoop 中的值排序

我有一个文件，其中包含一个字符串，然后是一个空格，然后每行都有一个数字。

例子：

我需要按降序对数字进行排序，然后将结果放入为数字分配排名的文件中。所以我的输出应该是一个包含以下格式的文件：

有谁知道，我怎么能在 Hadoop 中做到这一点？我正在将 java 与 Hadoop 一起使用。

java hadoop hadoop-streaming

2011-11-27T22:10:11.073

0 投票

2 回答

2278 浏览

hadoop - hadoop真的能处理datanode故障吗？

在我们的 hadoop 设置中，当一个数据节点崩溃（或）hadoop 在数据节点上没有响应时，reduce 任务失败，无法从失败的节点读取（下面的异常）。我认为 hadoop 处理数据节点故障，这是创建 hadoop 的主要目的。有人在他们的集群上面临类似的问题吗？如果您有解决方案，请告诉我。

hadoop mapreduce hadoop-streaming

2011-11-28T20:40:29.977

0 投票

2 回答

1968 浏览

hadoop - 使用内部 IP 配置从站的主机名 - 多个 NIC

在我的 Hadoop 环境中，我需要配置我的从节点，以便当它们在 map/reduce 作业的中间进行通信时，它们使用内部 IP 而不是从主机名中获取的外部 IP。

有什么方法可以设置我的 Hadoop 配置文件以指定节点应使用内部 IP 而不是外部 IP 进行通信？我已经在我的 core-site.xml、master 和 slave 文件中使用了内部 IP。

我做了一些研究，我看到人们提到“slave.host.name”参数，但是我会将这个参数放在哪个配置文件中？这个问题还有其他解决方案吗？

谢谢！

hadoop hadoop-streaming

2011-11-28T21:43:16.913

0 投票

1 回答

2226 浏览

hadoop - 当任务被杀死时，如何告诉 Hadoop 不要从 HDFS 中删除临时目录？

默认情况下，hadoop map 任务将处理后的记录写入临时目录中的文件${mapred.output.dir}/_temporary/_${taskid}。这些文件坐在这里，直到 FileCommiter 将它们移动到${mapred.output.dir}（任务成功完成后）。我有一种情况，在setup()地图任务中，我需要在上面提供的临时目录下创建文件，我会在其中编写一些稍后在其他地方使用的与流程相关的数据。但是，当 hadoop 任务被终止时，临时目录会从 HDFS 中删除。

任何人都知道是否可以告诉 Hadoop 在任务被终止后不要删除此目录，以及如何实现？我想应该提供一些我可以配置的属性。

问候

hadoop hadoop-streaming

2011-11-30T15:52:36.437

0 投票

1 回答

1231 浏览

mahout - 无法使用 hadoop 流读取 Mahout 生成的序列文件

我正在尝试流式传输由 Mahout 示例之一生成的序列文件以查看其内容：

作业成功启动并最终终止：

我想知道我的流式 jar 文件是否有问题，是否需要明确指向具有此类的 Mahout jar（尝试将 HADOOP_CLASSPATH 设置为 mahout-core-0.5-cdh3u2.jar 的位置但不起作用），或者也许甚至是别的东西？

任何帮助表示赞赏。谢谢。

mahout hadoop-streaming

2011-11-30T21:28:17.563

0 投票

2 回答

1929 浏览

hadoop - Hadoop Streaming - 设置每个节点的最大映射数

是否可以设置每个节点运行的地图任务数。
我正在使用 Hadoop Streaming 来抓取数据，每个节点只需要一个地图任务来避免阻塞。

谢谢，

hadoop hadoop-streaming

2011-12-28T13:21:41.347

0 投票

3 回答

502 浏览

hadoop - 如何判断我是要在集群上还是在“本地”模式下运行 Hadoop 流作业？

当盒子上没有运行 hadoop 实例时，Hadoop 流将在“本地”模式下运行进程。我有一个 shell 脚本，它按顺序控制一组 hadoop 流作业，我需要根据作业是否在本地运行来调整从 HDFS 复制文件到本地的条件。是否有完成此测试的标准方法？我可以做一个“ps aux | grep something”，但这似乎是临时的。

hadoop local cluster-computing hadoop-streaming

2011-12-31T04:32:33.503

0 投票

1 回答

108 浏览

hadoop - Hadoop 中的客户分区

我有一个文件，其中有类似的记录chicken 10。我想根据而不是对数据进行分区，/t以便我可以将chicken其作为我的键和10我的价值。

我认为我们需要改变getPartition方法，但我无法正确地做到这一点。

有没有人有这方面的例子？

hadoop hadoop-streaming

2012-01-09T22:50:01.327

0 投票

1 回答

2752 浏览

hadoop - 如何读取 Hadoop Sequentil 文件作为 Hadoop 作业的输入？

我有一个顺序文件，它的键值对类型为"org.apache.hadoop.typedbytes.TypedBytesWritable"，我必须提供这个文件作为 Hadoop 作业的输入，并且只能在地图中处理它。我的意思是我不必做任何需要减少的事情。

1) 我将如何将 FileInputFormat 指定为 SequentialFile ？

2) map 函数的签名是什么。

3) 我将如何从 map 而不是 Reduce 获得输出？

hadoop mapreduce sequence hadoop-streaming

2012-01-11T10:53:54.953

1 2 3 4 5 6 7 8 9 10

问题标签 [hadoop-streaming]

Reference