问题标签 [hadoop-streaming]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

854 问题

0 投票

1 回答

387 浏览

java - Hadoop 流、typedbytes 和/或 rawbytes 中的键、值和记录是如何分隔的

我知道 Hadoop 流中的文本记录由换行符分隔，并且键和值之间有一个可配置的分隔符（默认为制表符）。

1) rawbytes 格式的结构表明不需要记录或键/值分隔符，但有人可以确认是这种情况吗？

2）在typedbytes格式中，key和value是如何分隔的，record是如何分隔的？

3）另外，键是如何以 typedbytes 和 rawbytes 格式排序的？

0 投票

1 回答

210 浏览

python - 流式二进制可执行文件

在我的流式传输作业中，我想在 mapper 中调用一个可执行文件。是这样的

映射器.py

命令是

但结果是，二进制文件没有执行。我不知道为什么。谁能帮我

python hadoop-streaming

0 投票

1 回答

2757 浏览

amazon-s3 - EMR 如何将文件合二为一？

我已将大二进制文件拆分为 (2Gb) 块并将其上传到 Amazon S3。现在我想将它加入一个文件并使用我的自定义处理

我试过跑

但由于 -cat 将数据输出到我的本地终端而失败 - 它无法远程工作......

我怎么能做到这一点？

PS 我尝试将 cat 作为流式 MR 作业运行：

这项工作已成功完成。但。我在 dir/in 中有 3 个文件部分 - 现在我在 /dir/out 中有 6 个部分

和文件 _SUCCESS ofcource 这不是我的输出的一部分......

所以。如何加入拆分前的文件？

amazon-s3 amazon-web-services hadoop-streaming amazon-emr emr

0 投票

2 回答

94 浏览

python - 没有特定字符的压缩数据的ASCII表示

我想使用 Python 使用 Hadoop 处理大量腌制数据。我想要做的是将我的数据表示为某个键（文件 ID），并将压缩的泡菜表示为大文件中的值。

如果我只是尝试将二进制代码作为 ascii 放入我想用 hadoop 处理的文件中，我会得到很多 '\t' 和 '\n' 值，它们会干扰 hadoop 文件的（键、值）结构。

我的问题是：如何使用 python 压缩一些数据并将其表示为 ascii 文件中的字符串，避免使用某些字符（例如 '\t' 和 '\n'）？

或者也许我的方法本质上是无效的？

我真的很感激任何帮助！

python hadoop hadoop-streaming

0 投票

1 回答

275 浏览

hadoop - Hadoop：在写入后修改输出文件

摘要：我可以在每个输出文件使用hadoop流编写后指定一些要执行的操作吗？

基本上，这是对 hadoop mapreduce问题的最简单有效的压缩输出方法的后续。我希望将每个键X的值写入X.txt文件，压缩到X.zip存档中。但是当我们编写 zip 输出流时，很难说出结果文件的键或名称，所以我们最终得到X.zip包含default-name.txt.

重命名存档内容是非常简单的操作，但我可以将它放在哪里？我不想做的是从 S3 下载所有 zip，然后再上传它们。

hadoop hadoop-streaming

0 投票

0 回答

2428 浏览

hadoop - hbase 中并非所有元区域在线异常

我有一个 4 节点 hadoop，hbase 集群，其中 1 个用作 hadoopmaster 和 hbasemaster。其余三个服务器作为 datanode & regionserver & zookeeper。最近我的一台运行（datanode，regionserver & zookeeper）的机器崩溃了，系统没有重新启动。但我的 hadoop-cluster 仍然工作正常，但hbase 集群显示问题，因为没有区域在线，我无法查看 hbase 表。注意：关闭的节点名称是hadoopslave3 命令：

当hbase shell我尝试创建一个表时，它给出了一个错误：

对于命令：

表明：

和主日志显示：

并且 regionserver(hadoopslave2) 日志之一显示：

hadoop hbase ubuntu-10.04 hadoop-streaming

0 投票

0 回答

122 浏览

hadoop - 在 Hadoop 中接收流数据

我正在尝试测试 Hadoop 产品 HStreaming，它允许 Hadoop 处理连续的数据流。我访问了我的 twitter 流，而我的 mapreduce 程序没有从 twitter 接收任何流数据。但是相同的 twitter url 可以在浏览器或 wget 或 curl 实用程序中使用。只是想知道 - 是否需要任何配置才能使 MapReduce 程序访问 http（从防火墙）？

hadoop streaming hadoop-streaming

0 投票

2 回答

1327 浏览

hadoop - “添加" 在 hive cli

我想要类似的东西

我正在使用配置单元 0.7。
我需要这个来添加映射器/减速器脚本使用的 python 包。
我有哪些选择？

hadoop hive bigdata hadoop-streaming

0 投票

1 回答

416 浏览

hadoop - hadoop 流式获取节点id

在 hadoop 流中，有没有办法获取处理给定任务的节点的 ID？

通过类比，这个片段给出了任务的输入文件的名称：

我正在寻找类似 os.environ["map_node_id"] 的东西。该节点的任何唯一句柄都可以工作......

hadoop environment-variables hadoop-streaming

0 投票

1 回答

1256 浏览

python - 有没有办法从 hadoop 流中的 python 脚本中获取信息错误？

我正在使用 python 和 hadoop 流。尽管进行了仔细的单元测试，错误还是不可避免地蔓延开来。当它们发生时，这个错误消息就是 hadoop 给出的全部：

该消息对调试非常无益。

有没有办法从 hadoop 流中的 python 脚本中获取信息错误？

python debugging error-handling hadoop hadoop-streaming

1 2 3 4 5 6 7 8 9 10

问题标签 [hadoop-streaming]

Reference