问题标签 [hadoop-streaming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop 流、typedbytes 和/或 rawbytes 中的键、值和记录是如何分隔的
我知道 Hadoop 流中的文本记录由换行符分隔,并且键和值之间有一个可配置的分隔符(默认为制表符)。
1) rawbytes 格式的结构表明不需要记录或键/值分隔符,但有人可以确认是这种情况吗?
2)在typedbytes格式中,key和value是如何分隔的,record是如何分隔的?
3)另外,键是如何以 typedbytes 和 rawbytes 格式排序的?
python - 流式二进制可执行文件
在我的流式传输作业中,我想在 mapper 中调用一个可执行文件。是这样的
映射器.py
命令是
但结果是,二进制文件没有执行。我不知道为什么。谁能帮我
amazon-s3 - EMR 如何将文件合二为一?
我已将大二进制文件拆分为 (2Gb) 块并将其上传到 Amazon S3。现在我想将它加入一个文件并使用我的自定义处理
我试过跑
但由于 -cat 将数据输出到我的本地终端而失败 - 它无法远程工作......
我怎么能做到这一点?
PS 我尝试将 cat 作为流式 MR 作业运行:
这项工作已成功完成。但。我在 dir/in 中有 3 个文件部分 - 现在我在 /dir/out 中有 6 个部分
和文件 _SUCCESS ofcource 这不是我的输出的一部分......
所以。如何加入拆分前的文件?
python - 没有特定字符的压缩数据的ASCII表示
我想使用 Python 使用 Hadoop 处理大量腌制数据。我想要做的是将我的数据表示为某个键(文件 ID),并将压缩的泡菜表示为大文件中的值。
如果我只是尝试将二进制代码作为 ascii 放入我想用 hadoop 处理的文件中,我会得到很多 '\t' 和 '\n' 值,它们会干扰 hadoop 文件的(键、值)结构。
我的问题是:如何使用 python 压缩一些数据并将其表示为 ascii 文件中的字符串,避免使用某些字符(例如 '\t' 和 '\n')?
或者也许我的方法本质上是无效的?
我真的很感激任何帮助!
hadoop - Hadoop:在写入后修改输出文件
摘要:我可以在每个输出文件使用hadoop流编写后指定一些要执行的操作吗?
基本上,这是对 hadoop mapreduce问题的最简单有效的压缩输出方法的后续。我希望将每个键X
的值写入X.txt
文件,压缩到X.zip
存档中。但是当我们编写 zip 输出流时,很难说出结果文件的键或名称,所以我们最终得到X.zip
包含default-name.txt
.
重命名存档内容是非常简单的操作,但我可以将它放在哪里?我不想做的是从 S3 下载所有 zip,然后再上传它们。
hadoop - hbase 中并非所有元区域在线异常
我有一个 4 节点 hadoop,hbase 集群,其中 1 个用作 hadoopmaster 和 hbasemaster。其余三个服务器作为 datanode & regionserver & zookeeper。最近我的一台运行(datanode,regionserver & zookeeper)的机器崩溃了,系统没有重新启动。但我的 hadoop-cluster 仍然工作正常,但hbase 集群显示问题,因为没有区域在线,我无法查看 hbase 表。 注意:关闭的节点名称是hadoopslave3 命令:
当hbase shell
我尝试创建一个表时,它给出了一个错误:
对于命令:
表明:
和主日志显示:
并且 regionserver(hadoopslave2) 日志之一显示:
hadoop - 在 Hadoop 中接收流数据
我正在尝试测试 Hadoop 产品 HStreaming,它允许 Hadoop 处理连续的数据流。我访问了我的 twitter 流,而我的 mapreduce 程序没有从 twitter 接收任何流数据。但是相同的 twitter url 可以在浏览器或 wget 或 curl 实用程序中使用。只是想知道 - 是否需要任何配置才能使 MapReduce 程序访问 http(从防火墙)?
hadoop - “添加" 在 hive cli
我想要类似的东西
它将目录添加到配置单元的工作目录。
我正在使用配置单元 0.7。
我需要这个来添加映射器/减速器脚本使用的 python 包。
我有哪些选择?
hadoop - hadoop 流式获取节点id
在 hadoop 流中,有没有办法获取处理给定任务的节点的 ID?
通过类比,这个片段给出了任务的输入文件的名称:
我正在寻找类似 os.environ["map_node_id"] 的东西。该节点的任何唯一句柄都可以工作......
python - 有没有办法从 hadoop 流中的 python 脚本中获取信息错误?
我正在使用 python 和 hadoop 流。尽管进行了仔细的单元测试,错误还是不可避免地蔓延开来。当它们发生时,这个错误消息就是 hadoop 给出的全部:
该消息对调试非常无益。
有没有办法从 hadoop 流中的 python 脚本中获取信息错误?