问题标签 [hadoop-streaming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

854 问题

0 投票

1 回答

819 浏览

mongodb - mongo-hadoop 流式 mapper.py 未找到

运行 mongo-hadoop 流时出现以下错误：

我通过 dumbo 或常规方式运行标准 Hadoop python 流没有问题。

在另一篇文章的 Hadoop python 流中提到了这个错误

我正在运行这样的工作：

在 mapper.py/reducer.py 上使用路径/绝对路径，在 -file 参数中添加绝对路径没有帮助。标准 Hadoop 流式传输没有任何问题，所以我没有收到错误。

添加mapper.py和reducer.py到 hdfs 也没有帮助。

mapper.py并且reducer.py是可执行的并且在第一行确实有一个shebang：

映射器.py

减速器.py

我在 OSX 上运行 cloudera Hadoop CDH3u3。Java 示例可以正常工作

更新

我尝试了 0.23.1 并得到了同样的错误。

running -debug 不会删除 PackagedJobJar streamjob.jar

当我提取它mapper.py并reducer.py在那里时

这些文件在运行 std 流作业时也存在。mongo-haddoop-streaming 仍然会产生上述错误

mongodb hadoop-streaming

2012-06-25T19:33:40.323

0 投票

2 回答

4943 浏览

apache-pig - 使用 Apache Pig 的数据透视表

我想知道是否可以在 Apache Pig 中一次性旋转表格。

输入：

输出：

真实数据有几十列。

我可以用 awk 一次性完成，然后用 Hadoop Streaming 运行它。但是我的大部分代码是 Apache Pig，所以我想知道是否可以在 Pig 中有效地完成它。

apache-pig hadoop-streaming

2012-06-26T18:18:42.640

0 投票

1 回答

349 浏览

java - 如何将不可打印指定为 Hadoop 流中的键值分隔符

态度。我正在使用 stream.map.output.field.separator= 来指定分隔符

java hadoop hadoop-streaming

2012-06-27T14:15:43.903

0 投票

1 回答

934 浏览

optimization - Hadoop 使用 GZip 输入文件时如何优化 S3 的读取性能

在我的 Hadoop 流式处理工作的第一步，我的表现非常糟糕：在我看来，映射器从 S3 读取的速度约为 40KB/s - 50KB/s。

从 S3 读取约 100MB 的数据需要一个多小时！

数据的存储方式：S3 存储桶中有数千个约 5-10KB 的 GZip 文件。

我最近解压了一个 100MB 样本数据集的所有文件，并将其作为单个 GZip 文件上传到同一个 S3 存储桶中，我的任务在 3 分钟内完成（与之前的 1 小时运行相比）

受到鼓舞，我解压了一个 2GB 样本数据集的所有文件，并将其作为单个 GZip 文件上传到同一个 S3 存储桶中，我的任务再次花费了 1 个多小时：之后我终止了任务。

我没有玩过mapred.min.split.sizeand mapred.max.split.size，但我需要一些示例值来开始玩。

不过，从我在互联网上阅读的帖子来看，似乎使用 GZip 输入文件处理 Hadoop 流式任务的 GB 数据并不会因为从 S3 上读取它们而受到很多惩罚。

能否分享一下：

您存储在 S3 上的文件的“blob 大小”和
每个任务处理多少人，以及
处理这些需要多长时间？

我猜想调整mapred.min.split.sizeandmapred.max.split.size并保持上述 3 个值对 S3 的优化会在执行作业的时间上产生很大的变化。

optimization hadoop amazon-s3 hadoop-streaming

2012-07-03T17:49:25.477

0 投票

1 回答

1061 浏览

hadoop - 在 hadoop 中找不到 shell 脚本

我是 hadoop 和 hadoop 流的新手，所以这个错误可能很明显，我想念。

我运行了一个内联 awk 映射器命令，它工作正常。

但是，当我将 awk 命令放入文件并运行它时。我在集群中的所有机器上都得到了 Java IOException。

测试.sh

例外：

hadoop hadoop-streaming

2012-07-06T00:51:42.950

0 投票

2 回答

6005 浏览

python - 如何在 MRjob 中获取输入文件的名称

我正在使用 mrjob 编写地图功能。我的输入将来自 HDFS 目录中的文件。文件的名称包含文件中不存在的小而重要的信息。有没有办法（在 map 函数中）学习给定键值对的输入文件的名称？

我正在寻找与此 Java 代码等效的代码：

提前致谢！

python hadoop hadoop-streaming mrjob

2012-07-11T14:26:48.540

0 投票

1 回答

2930 浏览

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个运行 CDH4 的集群最近从 CDH3 升级。Hive 目前运行良好。但是我似乎无法让它运行甚至简单的 MR Streaming 作业（版本 1）。纱线已安装但未使用。这是命令行输入和输出

检查日志揭示了这一点：

日志输出很多失败减少任务：

hadoop hadoop-streaming

2012-07-12T12:45:30.677

0 投票

1 回答

3455 浏览

python - Python hadoop 流式传输：设置作业名称

我有一个使用 hadoop-streaming 在我的集群上运行的工作
我必须开始一项要为其添加作业名称的新作业，如何在命令行或文件上传递该选项来设置作业名称？
在 Java 中，你可以这样说

如何使用 hadoop-streaming 做到这一点？

python hadoop mapreduce hadoop-streaming

2012-07-17T18:14:33.053

0 投票

1 回答

448 浏览

hadoop - apache Hadoop-2.0.0 aplha 版本在全集群中使用联邦安装

我已经成功安装了hadoop稳定版。但在安装 hadoop -2.0.0 版本时感到困惑。

我想在两个节点上安装 hadoop-2.0.0-alpha，在两台机器上使用联合。rsi-1、rsi-2 是主机名。

以下属性的值应该是什么来实现联邦。两台机器也都用于数据节点。

fs.defaulFS dfs.federation.nameservices dfs.namenode.name.dir dfs.datanode.data.dir yarn.nodemanager.localizer.address yarn.resourcemanager.resource-tracker.address yarn.resourcemanager.scheduler.address yarn.resourcemanager.address

还有一点，在稳定版本的 hadoop 中，我在安装目录的 conf 文件夹下有配置文件。

但是在 2.0.0-aplha 版本中，有 etc/hadoop 目录，它没有 mapred-site.xml、hadoop-env.sh。我需要将共享文件夹下的conf文件夹复制到hadoop-home目录吗？还是我需要将这些文件从共享文件夹复制到 etc/hadoop 目录中？

问候，拉什米

hadoop hadoop-streaming hadoop-plugins hadoopy

2012-07-19T06:00:02.900

0 投票

0 回答

736 浏览

python - hadoop，python：命令没有从脚本运行，也没有失败，但从命令行运行良好

我有一个运行 python 命令的 python 程序

但是当我看到里面的东西时，我什么HDFS也得不到

当我从运行相同的命令时shell，它会执行并获取数据HDFS

我不知道为什么我会看到这种行为，执行命令的代码如下

python hadoop hadoop-streaming

2012-07-20T13:57:44.783

1 2 3 4 5 6 7 8 9 10

问题标签 [hadoop-streaming]

Reference