问题标签 [hadoop-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
434 浏览

java - Hadoop 的分布式缓存文件程序不生成任何输出

我们正在尝试设计一个简单的程序,其目标是从文件中读取专利数据,并检查其他国家是否引用了该专利,这是来自'Hadoop in Action'我们'chuck Lam'正在尝试了解的教科书advanced map/reduce programming

我们设置的hadoop发行版是Local Node,我们正在执行程序Windows environment,使用cygwin

这是我们下载文件的 URL http://www.nber.org/patents/:apat63_99.txtcite75_99.txt.

我们'apat63_99.txt'用作分布式缓存文件,并且'cite75_99.txt'input文件夹中,我们从命令行参数传递。

问题是程序没有生成输出,我们看到的输出文件中没有数据。

我们已经尝试过映射器阶段和减速器阶段的输出,两者都是空白的。

这是我们为此任务开发的代码:

该工具是EclipseHadoop's version我们正在使用的是1.2.1.

这些是运行作业的命令行参数:

这是程序执行时生成的跟踪:

请让我们知道我们哪里出错了,如果我错过了任何重要信息,请告诉我。

谢谢并恭祝安康

0 投票
0 回答
95 浏览

java - Hadoop 分区映射任务

我有一个 Hadoop Map Reduce 作业,我使用 line reader 拆分了输入。

映射输入记录=10。

是否可以根据标识 line reader split 的 LongWritable 键对 map 任务输出进行分区?

如果没有 - 是否有另一种方法来划分每个地图任务的输出?

0 投票
0 回答
101 浏览

java - 关于 hadoop-env.sh 的问题

我面临错误:Java 堆空间和错误:超出 GC 开销限制

所以我开始研究 hadoop-env.sh。

所以这就是我到目前为止所理解的,如果我错了,请纠正我。

这将调用datanode上的datanode守护进程和tasktracker守护进程,每个分配7GB内存(datanode(7GB)+ tasktracker(7GB)= 14GB)

所以这将调用 9 个具有 1GB 内存的子 JVM,所以总共 9GB

但是 tasktracker 是用 7GB 内存调用的,所以这会发生冲突。因为 tasktracker 调用的 tasktracker 和子 JVMS 的最大内存为 7GB,但它们正在消耗 9G。

所以发生了堆空间错误,我的计算是否正确?

0 投票
1 回答
39 浏览

hadoop - 控制中间体导致 hadoop

我想用 hadoop 控制 Map 和 Reduce 之间的中间结果。我想指定在 Map 之后将这些结果复制到哪里。我会选择会减少的数据。总之,我想要地图的结果,然后再进行洗牌和排序,然后做我想做的事。如果您有解决方案,请告诉我。

谢谢

0 投票
1 回答
520 浏览

hadoop - 如果我已经为 Map-reduce 作业中的键实现了哈希码,那么使用 customPartitioner 是否有用?

我正在编写一个自定义key类,没有hashCode实现。

我运行一个map-reduce作业,但是在作业配置过程中,我设置了partitoner类:比如

这是partitioner实现:

我运行map-reduce作业并保存输出。

job.setPartitionerClass(TaggedJoiningPartitioner.class);现在我在上面的工作设置中注释掉了。

hashCode()在我的自定义类中实现如下:

现在我再次运行该作业(注意:我没有任何partitoner设置)。在 map-reduce 工作之后,我比较了前一个的输出。它们完全相同。

所以我的问题是:

0 投票
4 回答
9387 浏览

hadoop - 我可以通过/存储通过 Hive 中的“CREATE TABLE AS SELECT .....”创建的表进行集群吗?

我正在尝试在 Hive 中创建一个表

此语法失败 - 但我不确定是否可以执行此组合语句。有任何想法吗?

0 投票
1 回答
533 浏览

hadoop - 我必须实现hadoop,所以它可以处理呼叫详细记录的数据?

我已经配置了 HDFS、Datanode 和 namenode 以及 hbase。我在 HDFS 中存储了一个 CDR csv 文件。那么我怎样才能将它与 Hbase 映射并准备好处理它呢?

0 投票
1 回答
57 浏览

hadoop - hbase 崩溃后如何将数据存储到主数据库

我是 HBase 的新手。假设我们有主区域和次区域。

假设我们的主要区域由于一些外部因素而下降了几个小时。如果主服务器恢复正常状态。

它可能错过了在主要区域离线期间加载的一些数据量。那么主服务器将如何同步加载错过的作业。

提前致谢!!

0 投票
1 回答
183 浏览

hadoop - 在 linux 64 位机器上安装 hadoop-2.2.0 时出现问题

使用此链接,尝试在 ubuntu 12.04(64 位机器)中安装 Hadoop 版本 - 2.2.0(单节点集群)

http://bigdatahandler.com/hadoop-hdfs/installing-single-node-hadoop-2-2-0-on-ubuntu/

使用以下命令通过 namenode 格式化 hdfs 文件系统

当我这样做时,得到以下问题,

14/08/07 10:38:39 致命的 namenode.NameNode:namenode 中的异常加入 java.lang.RuntimeException:org.xml.sax.SAXParseException;systemId:文件:/usr/local/hadoop/etc/hadoop/mapred-site.xml;行号:27;列号:1;结尾部分不允许有内容。

我需要做什么才能解决以下问题?

Mapred-site.xml:

0 投票
1 回答
768 浏览

eclipse - 在 Mapreduce 中进行作业链接时,如何解决链映射器不适用于参数错误?

我正在使用 Hadoop 1.2.1,eclipse juno。我正在尝试在单个 Mapreduce 作业中链接三个地图任务。在 Eclipse 中编写 Mapreduce 代码时,我遇到了错误,例如 chainmapper 不适用于参数,而且我也无法设置输入路径。以下是我的mapreduce代码,

谁能帮我解决这个问题?