问题标签 [hadoop-streaming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
819 浏览

mongodb - mongo-hadoop 流式 mapper.py 未找到

运行 mongo-hadoop 流时出现以下错误:

我通过 dumbo 或常规方式运行标准 Hadoop python 流没有问题。

在另一篇文章的 Hadoop python 流中提到了这个错误

我正在运行这样的工作:

在 mapper.py/reducer.py 上使用路径/绝对路径,在 -file 参数中添加绝对路径没有帮助。标准 Hadoop 流式传输没有任何问题,所以我没有收到错误。

添加mapper.pyreducer.py到 hdfs 也没有帮助。

mapper.py并且reducer.py是可执行的并且在第一行确实有一个shebang:

映射器.py

减速器.py

我在 OSX 上运行 cloudera Hadoop CDH3u3。Java 示例可以正常工作

更新

我尝试了 0.23.1 并得到了同样的错误。

running -debug 不会删除 PackagedJobJar streamjob.jar

当我提取它mapper.pyreducer.py在那里时

这些文件在运行 std 流作业时也存在。mongo-haddoop-streaming 仍然会产生上述错误

0 投票
2 回答
4943 浏览

apache-pig - 使用 Apache Pig 的数据透视表

我想知道是否可以在 Apache Pig 中一次性旋转表格。

输入:

输出:

真实数据有几十列。

我可以用 awk 一次性完成,然后用 Hadoop Streaming 运行它。但是我的大部分代码是 Apache Pig,所以我想知道是否可以在 Pig 中有效地完成它。

0 投票
1 回答
349 浏览

java - 如何将不可打印指定为 Hadoop 流中的键值分隔符

态度。我正在使用 stream.map.output.field.separator= 来指定分隔符

0 投票
1 回答
934 浏览

optimization - Hadoop 使用 GZip 输入文件时如何优化 S3 的读取性能

在我的 Hadoop 流式处理工作的第一步,我的表现非常糟糕:在我看来,映射器从 S3 读取的速度约为 40KB/s - 50KB/s。

从 S3 读取约 100MB 的数据需要一个多小时

数据的存储方式:S3 存储桶中有数千个约 5-10KB 的 GZip 文件。

我最近解压了一个 100MB 样本数据集的所有文件,并将其作为单个 GZip 文件上传到同一个 S3 存储桶中,我的任务在 3 分钟内完成(与之前的 1 小时运行相比)

受到鼓舞,我解压了一个 2GB 样本数据集的所有文件,并将其作为单个 GZip 文件上传到同一个 S3 存储桶中,我的任务再次花费了 1 个多小时:之后我终止了任务

我没有玩过mapred.min.split.sizeand mapred.max.split.size,但我需要一些示例值来开始玩。

不过,从我在互联网上阅读的帖子来看,似乎使用 GZip 输入文件处理 Hadoop 流式任务的 GB 数据并不会因为从 S3 上读取它们而受到很多惩罚。

能否分享一下:

  1. 您存储在 S3 上的文件的“blob 大小”和
  2. 每个任务处理多少人,以及
  3. 处理这些需要多长时间?

我猜想调整mapred.min.split.sizeandmapred.max.split.size并保持上述 3 个值对 S3 的优化会在执行作业的时间上产生很大的变化。

0 投票
1 回答
1061 浏览

hadoop - 在 hadoop 中找不到 shell 脚本

我是 hadoop 和 hadoop 流的新手,所以这个错误可能很明显,我想念。

我运行了一个内联 awk 映射器命令,它工作正常。

但是,当我将 awk 命令放入文件并运行它时。我在集群中的所有机器上都得到了 Java IOException。

测试.sh

例外:

0 投票
2 回答
6005 浏览

python - 如何在 MRjob 中获取输入文件的名称

我正在使用 mrjob 编写地图功能。我的输入将来自 HDFS 目录中的文件。文件的名称包含文件中不存在的小而重要的信息。有没有办法(在 map 函数中)学习给定键值对的输入文件的名称?

我正在寻找与此 Java 代码等效的代码:

提前致谢!

0 投票
1 回答
2930 浏览

hadoop - 使用 MR1 CDH4 运行简单的 MapReduce Streaming 作业失败

我有一个运行 CDH4 的集群最近从 CDH3 升级。Hive 目前运行良好。但是我似乎无法让它运行甚至简单的 MR Streaming 作业(版本 1)。纱线已安装但未使用。这是命令行输入和输出

检查日志揭示了这一点:

日志输出很多失败减少任务:

0 投票
1 回答
3455 浏览

python - Python hadoop 流式传输:设置作业名称

  • 我有一个使用 hadoop-streaming 在我的集群上运行的工作
  • 我必须开始一项要为其添加作业名称的新作业,如何在命令行或文件上传递该选项来设置作业名称?
  • 在 Java 中,你可以这样说

如何使用 hadoop-streaming 做到这一点?

0 投票
1 回答
448 浏览

hadoop - apache Hadoop-2.0.0 aplha 版本在全集群中使用联邦安装

我已经成功安装了hadoop稳定版。但在安装 hadoop -2.0.0 版本时感到困惑。

我想在两个节点上安装 hadoop-2.0.0-alpha,在两台机器上使用联合。rsi-1、rsi-2 是主机名。

以下属性的值应该是什么来实现联邦。两台机器也都用于数据节点。

fs.defaulFS dfs.federation.nameservices dfs.namenode.name.dir dfs.datanode.data.dir yarn.nodemanager.localizer.address yarn.resourcemanager.resource-tracker.address yarn.resourcemanager.scheduler.address yarn.resourcemanager.address

还有一点,在稳定版本的 hadoop 中,我在安装目录的 conf 文件夹下有配置文件。

但是在 2.0.0-aplha 版本中,有 etc/hadoop 目录,它没有 mapred-site.xml、hadoop-env.sh。我需要将共享文件夹下的conf文件夹复制到hadoop-home目录吗?还是我需要将这些文件从共享文件夹复制到 etc/hadoop 目录中?

问候, 拉什米

0 投票
0 回答
736 浏览

python - hadoop,python:命令没有从脚本运行,也没有失败,但从命令行运行良好

我有一个运行 python 命令的 python 程序

但是当我看到里面的东西时,我什么HDFS也得不到

当我从 运行相同的命令时shell,它会执行并获取数据HDFS

我不知道为什么我会看到这种行为,执行命令的代码如下