问题标签 [hadoop-streaming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
387 浏览

java - Hadoop 流、typedbytes 和/或 rawbytes 中的键、值和记录是如何分隔的

我知道 Hadoop 流中的文本记录由换行符分隔,并且键和值之间有一个可配置的分隔符(默认为制表符)。

1) rawbytes 格式的结构表明不需要记录或键/值分隔符,但有人可以确认是这种情况吗?

2)在typedbytes格式中,key和value是如何分隔的,record是如何分隔的?

3)另外,键是如何以 typedbytes 和 rawbytes 格式排序的?

0 投票
1 回答
210 浏览

python - 流式二进制可执行文件

在我的流式传输作业中,我想在 mapper 中调用一个可执行文件。是这样的

映射器.py

命令是

但结果是,二进制文件没有执行。我不知道为什么。谁能帮我

0 投票
1 回答
2757 浏览

amazon-s3 - EMR 如何将文件合二为一?

我已将大二进制文件拆分为 (2Gb) 块并将其上传到 Amazon S3。现在我想将它加入一个文件并使用我的自定义处理

我试过跑

但由于 -cat 将数据输出到我的本地终端而失败 - 它无法远程工作......

我怎么能做到这一点?

PS 我尝试将 cat 作为流式 MR 作业运行:

这项工作已成功完成。但。我在 dir/in 中有 3 个文件部分 - 现在我在 /dir/out 中有 6 个部分

和文件 _SUCCESS ofcource 这不是我的输出的一部分......

所以。如何加入拆分前的文件?

0 投票
2 回答
94 浏览

python - 没有特定字符的压缩数据的ASCII表示

我想使用 Python 使用 Hadoop 处理大量腌制数据。我想要做的是将我的数据表示为某个键(文件 ID),并将压缩的泡菜表示为大文件中的值。

如果我只是尝试将二进制代码作为 ascii 放入我想用 hadoop 处理的文件中,我会得到很多 '\t' 和 '\n' 值,它们会干扰 hadoop 文件的(键、值)结构。

我的问题是:如何使用 python 压缩一些数据并将其表示为 ascii 文件中的字符串,避免使用某些字符(例如 '\t' 和 '\n')?

或者也许我的方法本质上是无效的?

我真的很感激任何帮助!

0 投票
1 回答
275 浏览

hadoop - Hadoop:在写入后修改输出文件

摘要:我可以在每个输出文件使用hadoop流编写后指定一些要执行的操作吗?

基本上,这是对 hadoop mapreduce问题的最简单有效的压缩输出方法的后续。我希望将每个键X的值写入X.txt文件,压缩到X.zip存档中。但是当我们编写 zip 输出流时,很难说出结果文件的键或名称,所以我们最终得到X.zip包含default-name.txt.

重命名存档内容是非常简单的操作,但我可以将它放在哪里?我不想做的是从 S3 下载所有 zip,然后再上传它们。

0 投票
0 回答
2428 浏览

hadoop - hbase 中并非所有元区域在线异常

我有一个 4 节点 hadoop,hbase 集群,其中 1 个用作 hadoopmaster 和 hbasemaster。其余三个服务器作为 datanode & regionserver & zookeeper。最近我的一台运行(datanode,regionserver & zookeeper)的机器崩溃了,系统没有重新启动。但我的 hadoop-cluster 仍然工作正常,但hbase 集群显示问题,因为没有区域在线,我无法查看 hbase 表。 注意:关闭的节点名称是hadoopslave3 命令:

hbase shell我尝试创建一个表时,它给出了一个错误:

对于命令:

表明:

和主日志显示:

并且 regionserver(hadoopslave2) 日志之一显示:

0 投票
0 回答
122 浏览

hadoop - 在 Hadoop 中接收流数据

我正在尝试测试 Hadoop 产品 HStreaming,它允许 Hadoop 处理连续的数据流。我访问了我的 twitter 流,而我的 mapreduce 程序没有从 twitter 接收任何流数据。但是相同的 twitter url 可以在浏览器或 wget 或 curl 实用程序中使用。只是想知道 - 是否需要任何配置才能使 MapReduce 程序访问 http(从防火墙)?

0 投票
2 回答
1327 浏览

hadoop - “添加" 在 hive cli

我想要类似的东西

它将目录添加到配置单元的工作目录。

我正在使用配置单元 0.7。
我需要这个来添加映射器/减速器脚本使用的 python 包。
我有哪些选择?

0 投票
1 回答
416 浏览

hadoop - hadoop 流式获取节点id

在 hadoop 流中,有没有办法获取处理给定任务的节点的 ID?

通过类比,这个片段给出了任务的输入文件的名称:

我正在寻找类似 os.environ["map_node_id"] 的东西。该节点的任何唯一句柄都可以工作......

0 投票
1 回答
1256 浏览

python - 有没有办法从 hadoop 流中的 python 脚本中获取信息错误?

我正在使用 python 和 hadoop 流。尽管进行了仔细的单元测试,错误还是不可避免地蔓延开来。当它们发生时,这个错误消息就是 hadoop 给出的全部:

该消息对调试非常无益。

有没有办法从 hadoop 流中的 python 脚本中获取信息错误?