问题标签 [hadoop-partitioning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何在 Haoop v 0.21 中调用 Partitioner
在我的应用程序中,我想根据键创建尽可能多的减速器作业。现在我当前的实现将所有键和值写入单个(reducer)输出文件中。所以为了解决这个问题,我使用了一个分区器,但我不能调用类。分区器应该在选择映射任务之后和选择减少任务之前调用,但它没有。分区器的代码如下
这段代码根据键和值对文件进行分区是否正确,并且输出将自动传输到减速器?
git - 使用 fstab 激活 Gitolite ACL 分区?
我不明白,也找不到有关 ACL 和 gitolite 的任何信息。
首先,我想安装 gitosis,它需要apt-get install ACL package
为 debian 安装,并将acl激活到fstab文件中。
使用 gitolite,一个巨大的 gitosis 分支,我没有找到任何关于这一步的信息,你能在这一点上启发我吗?
谢谢,SR。
hadoop - Apache Hive 如何识别哪一列是分区
我有一组日志文件,创建了一个 Hive 表,现在我想根据 col 对表进行分区我不明白并且没有看到示例是如何为分区指定列如何指定 col/字段前任。这是日志中的一行
2012-04-11 16:49:10,629 ~ [http-7001-11] ~DE1F6F6667913022AE2620D1228817D6 ~ END ~ /admin/bp/setup/newedit/ok ~ pt ~ 219 ~
table struc 是 CREATE TABLE log (starttime STRING, thread STRING, session STRING, method STRING, targeturl STRING, registry string, ipaddress STRING, details STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '~'; 现在,如果我希望 6the col ie 'registry'成为日志的分区,我将如何编写分区语句。 一般来说,如果我有一行(行)与 cols c1,c2,..... c10 如何在分区中指定 col ci? 谢谢
hadoop - 如何为hadoop流指定分区器
我有一个自定义分区器,如下所示:
我设置了hadoop流参数,如下所示
然后我得到一个错误:找不到类。
你知道有什么问题吗?
此致,
hadoop - 如何将键值数据加载到 hbase 表中?
感谢您对我的问题感兴趣。在开始之前,我想让您知道我对 Hadoop 和 HBase 非常陌生。到目前为止,我发现 Hadoop 非常有趣,并希望在未来做出更多贡献。
我主要对提高 HBase 的性能感兴趣。为此,我创建了一个 hbase 表,并编写了用于将 5000 行数据(仅由 '!' 分隔的值)加载到 hbase 表中的 pig 脚本,后来我将这个 h 基表映射到 Hive 表。到目前为止,一切都运行良好......但问题来了,我想加载同时具有键和值的数据(例如 key1 =12 !key2= 13),所以我可以进行什么样的解析选择相应地将键值对数据加载到 h 基表中,还请告诉我行键在 h 基表中的重要性。
我写的猪脚本如下
A = LOAD '/BULK_ARK_DATA/' 使用 PigStorage('!' ) AS(id: chararray,a: chararray,b: chararray,c: chararray); 使用 org.apache.pig.backend.hadoop.hbase.HBaseStorage ('AF:a AF:b AF:c') 将 A 存储到 'hbase://bulk_ark' 中;
那么如何在hbase表中加载键值数据??????请尽快回复我.... :)
hadoop - 无法将分区器设置为 JobConf 对象
我编写了一个自定义分区器,但无法将其设置JobConf
为主类中的对象。
但是当我尝试将其设置为JobConf
对象时,出现以下错误。
JobConf 类型中的方法 setPartitionerClass(Class) 不适用于参数 (Class)
有人可以告诉我我做错了什么吗?
hadoop - 映射Hadoop中reduce任务的输出大小
在 Hadoop 0.20.2 中,jobtracker 是否维护与 reduce 任务对应的各种映射输出大小的任何信息?
Map<String, List<MapOutputLocation>>
in 类型的maplocationsReduceCopier
包含 reduce 任务的映射输出位置,但它似乎没有任何关于其大小的信息。
hadoop - Hadoop FileInputFormat isSplitable false
我有一个简短的问题,我想我知道 FileInputFormat isSplitable 方法的答案。如果我重写此方法以返回 false,自然我将有一个映射器处理一个文件(我只有一个文件)。如果这个文件分布在 HDFS 上,所有这些都将被拉到我的单个映射器中。当我使用映射器处理它并创建键/值对以发送到减速器时,如果我创建大量它们,它们是否会分布在我的集群中以利用数据局部性或者是否存在某种隐式结果是,如果我将它设为 isSplitable false 就不会再发生了?
ruby - hadoop流,如何设置分区?
我对 hadoop 流非常陌生,并且在分区方面遇到了一些困难。
根据在一行中找到的内容,我的映射器函数要么返回
或者
为了正确减少,我需要对具有相同key1的所有行进行分组,并按 value1、value2 和线型(0 或 1)对它们进行排序,例如:
有没有办法确保这样的分区?到目前为止,我已经尝试过使用诸如
或者
但这只会带来愤怒和绝望。
如果值得一提,如果我使用cat 数据,我的脚本可以正常工作 | 映射器 | 排序 | 减少 ,我正在使用亚马逊弹性地图减少红宝石客户端,所以我将选项传递给
任何帮助将不胜感激!提前致谢
csv - 如何通过实现 getSplits 增加 hadoop map 任务
我想处理多行 CSV 文件,为此我编写了一个自定义 CSVInputFormat。
我希望在每个 hadoop 节点上有大约 40 个线程处理 CSV 行。但是,当我在 Amazon EMR 上创建一个包含 5 台机器(1 个主设备和 4 个核心)的集群时,我可以看到我只运行了 2 个映射任务,即使有 6 个可用的映射槽:
我在 inputFormat 中实现了 getSplits,因此它的行为类似于 NLineInputFormat。我期待这样我会得到更多并行运行的东西,但没有任何效果。另外,我尝试设置 arguments -s,mapred.tasktracker.map.tasks.maximum=10 --args -jobconf,mapred.map.tasks=10
,但没有效果。
我该怎么做才能并行处理行?hadoop 的运行方式,它不可扩展,因为无论我分配给集群多少实例,最多只能运行两个 map 任务。
更新:当我使用非压缩文件 (zip) 作为源时,它会创建更多的地图任务,大约 17 个用于 130 万行。即便如此,我想知道为什么它不应该更多以及为什么在压缩数据时没有创建更多的映射器。