问题标签 [hadoop-partitioning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop 的分布式缓存文件程序不生成任何输出
我们正在尝试设计一个简单的程序,其目标是从文件中读取专利数据,并检查其他国家是否引用了该专利,这是来自'Hadoop in Action'
我们'chuck Lam'
正在尝试了解的教科书advanced map/reduce programming
。
我们设置的hadoop发行版是Local Node
,我们正在执行程序Windows environment
,使用cygwin
。
这是我们下载文件的 URL http://www.nber.org/patents/
:apat63_99.txt
和cite75_99.txt
.
我们'apat63_99.txt'
用作分布式缓存文件,并且'cite75_99.txt'
在input
文件夹中,我们从命令行参数传递。
问题是程序没有生成输出,我们看到的输出文件中没有数据。
我们已经尝试过映射器阶段和减速器阶段的输出,两者都是空白的。
这是我们为此任务开发的代码:
该工具是Eclipse
,Hadoop's version
我们正在使用的是1.2.1
.
这些是运行作业的命令行参数:
这是程序执行时生成的跟踪:
请让我们知道我们哪里出错了,如果我错过了任何重要信息,请告诉我。
谢谢并恭祝安康
java - Hadoop 分区映射任务
我有一个 Hadoop Map Reduce 作业,我使用 line reader 拆分了输入。
映射输入记录=10。
是否可以根据标识 line reader split 的 LongWritable 键对 map 任务输出进行分区?
如果没有 - 是否有另一种方法来划分每个地图任务的输出?
java - 关于 hadoop-env.sh 的问题
我面临错误:Java 堆空间和错误:超出 GC 开销限制
所以我开始研究 hadoop-env.sh。
所以这就是我到目前为止所理解的,如果我错了,请纠正我。
这将调用datanode上的datanode守护进程和tasktracker守护进程,每个分配7GB内存(datanode(7GB)+ tasktracker(7GB)= 14GB)
和
所以这将调用 9 个具有 1GB 内存的子 JVM,所以总共 9GB
但是 tasktracker 是用 7GB 内存调用的,所以这会发生冲突。因为 tasktracker 调用的 tasktracker 和子 JVMS 的最大内存为 7GB,但它们正在消耗 9G。
所以发生了堆空间错误,我的计算是否正确?
hadoop - 控制中间体导致 hadoop
我想用 hadoop 控制 Map 和 Reduce 之间的中间结果。我想指定在 Map 之后将这些结果复制到哪里。我会选择会减少的数据。总之,我想要地图的结果,然后再进行洗牌和排序,然后做我想做的事。如果您有解决方案,请告诉我。
谢谢
hadoop - 如果我已经为 Map-reduce 作业中的键实现了哈希码,那么使用 customPartitioner 是否有用?
我正在编写一个自定义key
类,没有hashCode
实现。
我运行一个map-reduce
作业,但是在作业配置过程中,我设置了partitoner
类:比如
这是partitioner
实现:
我运行map-reduce
作业并保存输出。
job.setPartitionerClass(TaggedJoiningPartitioner.class);
现在我在上面的工作设置中注释掉了。
我hashCode()
在我的自定义类中实现如下:
现在我再次运行该作业(注意:我没有任何partitoner
设置)。在 map-reduce 工作之后,我比较了前一个的输出。它们完全相同。
所以我的问题是:
hadoop - 我可以通过/存储通过 Hive 中的“CREATE TABLE AS SELECT .....”创建的表进行集群吗?
我正在尝试在 Hive 中创建一个表
此语法失败 - 但我不确定是否可以执行此组合语句。有任何想法吗?
hadoop - 我必须实现hadoop,所以它可以处理呼叫详细记录的数据?
我已经配置了 HDFS、Datanode 和 namenode 以及 hbase。我在 HDFS 中存储了一个 CDR csv 文件。那么我怎样才能将它与 Hbase 映射并准备好处理它呢?
hadoop - hbase 崩溃后如何将数据存储到主数据库
我是 HBase 的新手。假设我们有主区域和次区域。
假设我们的主要区域由于一些外部因素而下降了几个小时。如果主服务器恢复正常状态。
它可能错过了在主要区域离线期间加载的一些数据量。那么主服务器将如何同步加载错过的作业。
提前致谢!!
hadoop - 在 linux 64 位机器上安装 hadoop-2.2.0 时出现问题
使用此链接,尝试在 ubuntu 12.04(64 位机器)中安装 Hadoop 版本 - 2.2.0(单节点集群)
http://bigdatahandler.com/hadoop-hdfs/installing-single-node-hadoop-2-2-0-on-ubuntu/
使用以下命令通过 namenode 格式化 hdfs 文件系统
当我这样做时,得到以下问题,
14/08/07 10:38:39 致命的 namenode.NameNode:namenode 中的异常加入 java.lang.RuntimeException:org.xml.sax.SAXParseException;systemId:文件:/usr/local/hadoop/etc/hadoop/mapred-site.xml;行号:27;列号:1;结尾部分不允许有内容。
我需要做什么才能解决以下问题?
Mapred-site.xml:
eclipse - 在 Mapreduce 中进行作业链接时,如何解决链映射器不适用于参数错误?
我正在使用 Hadoop 1.2.1,eclipse juno。我正在尝试在单个 Mapreduce 作业中链接三个地图任务。在 Eclipse 中编写 Mapreduce 代码时,我遇到了错误,例如 chainmapper 不适用于参数,而且我也无法设置输入路径。以下是我的mapreduce代码,
谁能帮我解决这个问题?