问题标签 [hadoop-partitioning]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

338 问题

0 投票

1 回答

434 浏览

java - Hadoop 的分布式缓存文件程序不生成任何输出

我们正在尝试设计一个简单的程序，其目标是从文件中读取专利数据，并检查其他国家是否引用了该专利，这是来自'Hadoop in Action'我们'chuck Lam'正在尝试了解的教科书advanced map/reduce programming。

我们设置的hadoop发行版是Local Node，我们正在执行程序Windows environment，使用cygwin。

这是我们下载文件的 URL http://www.nber.org/patents/:apat63_99.txt和cite75_99.txt.

我们'apat63_99.txt'用作分布式缓存文件，并且'cite75_99.txt'在input文件夹中，我们从命令行参数传递。

问题是程序没有生成输出，我们看到的输出文件中没有数据。

我们已经尝试过映射器阶段和减速器阶段的输出，两者都是空白的。

这是我们为此任务开发的代码：

该工具是Eclipse，Hadoop's version我们正在使用的是1.2.1.

这些是运行作业的命令行参数：

这是程序执行时生成的跟踪：

请让我们知道我们哪里出错了，如果我错过了任何重要信息，请告诉我。

谢谢并恭祝安康

2014-06-22T07:27:37.680

0 投票

0 回答

95 浏览

java - Hadoop 分区映射任务

我有一个 Hadoop Map Reduce 作业，我使用 line reader 拆分了输入。

映射输入记录=10。

是否可以根据标识 line reader split 的 LongWritable 键对 map 任务输出进行分区？

如果没有 - 是否有另一种方法来划分每个地图任务的输出？

java hadoop mapreduce hadoop-partitioning

2014-06-26T16:17:34.200

0 投票

0 回答

101 浏览

java - 关于 hadoop-env.sh 的问题

我面临错误：Java 堆空间和错误：超出 GC 开销限制

所以我开始研究 hadoop-env.sh。

所以这就是我到目前为止所理解的，如果我错了，请纠正我。

这将调用datanode上的datanode守护进程和tasktracker守护进程，每个分配7GB内存（datanode（7GB）+ tasktracker（7GB）= 14GB）

和

所以这将调用 9 个具有 1GB 内存的子 JVM，所以总共 9GB

但是 tasktracker 是用 7GB 内存调用的，所以这会发生冲突。因为 tasktracker 调用的 tasktracker 和子 JVMS 的最大内存为 7GB，但它们正在消耗 9G。

所以发生了堆空间错误，我的计算是否正确？

java hadoop hadoop-streaming hadoop-partitioning hadoop2

2014-06-27T05:31:02.047

0 投票

1 回答

39 浏览

hadoop - 控制中间体导致 hadoop

我想用 hadoop 控制 Map 和 Reduce 之间的中间结果。我想指定在 Map 之后将这些结果复制到哪里。我会选择会减少的数据。总之，我想要地图的结果，然后再进行洗牌和排序，然后做我想做的事。如果您有解决方案，请告诉我。

谢谢

hadoop mapreduce hadoop-streaming hadoop-partitioning hadoop2

2014-06-27T12:21:38.793

0 投票

1 回答

520 浏览

hadoop - 如果我已经为 Map-reduce 作业中的键实现了哈希码，那么使用 customPartitioner 是否有用？

我正在编写一个自定义key类，没有hashCode实现。

我运行一个map-reduce作业，但是在作业配置过程中，我设置了partitoner类：比如

这是partitioner实现：

我运行map-reduce作业并保存输出。

job.setPartitionerClass(TaggedJoiningPartitioner.class);现在我在上面的工作设置中注释掉了。

我hashCode()在我的自定义类中实现如下：

现在我再次运行该作业（注意：我没有任何partitoner设置）。在 map-reduce 工作之后，我比较了前一个的输出。它们完全相同。

所以我的问题是：

hadoop mapreduce hashcode hadoop-partitioning

2014-07-16T19:13:10.513

0 投票

4 回答

9387 浏览

hadoop - 我可以通过/存储通过 Hive 中的“CREATE TABLE AS SELECT .....”创建的表进行集群吗？

我正在尝试在 Hive 中创建一个表

此语法失败 - 但我不确定是否可以执行此组合语句。有任何想法吗？

hadoop hive hiveql bucket hadoop-partitioning

2014-07-22T20:41:13.947

0 投票

1 回答

533 浏览

hadoop - 我必须实现hadoop，所以它可以处理呼叫详细记录的数据？

我已经配置了 HDFS、Datanode 和 namenode 以及 hbase。我在 HDFS 中存储了一个 CDR csv 文件。那么我怎样才能将它与 Hbase 映射并准备好处理它呢？

hadoop hadoop-streaming hadoop2 hadoop-plugins hadoop-partitioning

2014-07-23T15:22:04.460

0 投票

1 回答

57 浏览

hadoop - hbase 崩溃后如何将数据存储到主数据库

我是 HBase 的新手。假设我们有主区域和次区域。

假设我们的主要区域由于一些外部因素而下降了几个小时。如果主服务器恢复正常状态。

它可能错过了在主要区域离线期间加载的一些数据量。那么主服务器将如何同步加载错过的作业。

提前致谢！！

hadoop hbase hadoop-partitioning

2014-07-28T15:48:11.783

0 投票

1 回答

183 浏览

hadoop - 在 linux 64 位机器上安装 hadoop-2.2.0 时出现问题

使用此链接，尝试在 ubuntu 12.04（64 位机器）中安装 Hadoop 版本 - 2.2.0（单节点集群）

http://bigdatahandler.com/hadoop-hdfs/installing-single-node-hadoop-2-2-0-on-ubuntu/

使用以下命令通过 namenode 格式化 hdfs 文件系统

当我这样做时，得到以下问题，

14/08/07 10:38:39 致命的 namenode.NameNode：namenode 中的异常加入 java.lang.RuntimeException：org.xml.sax.SAXParseException；systemId：文件：/usr/local/hadoop/etc/hadoop/mapred-site.xml；行号：27；列号：1；结尾部分不允许有内容。

我需要做什么才能解决以下问题？

Mapred-site.xml：

hadoop hadoop-streaming hadoop2 hadoop-plugins hadoop-partitioning

2014-08-07T05:23:42.253

0 投票

1 回答

768 浏览

eclipse - 在 Mapreduce 中进行作业链接时，如何解决链映射器不适用于参数错误？

我正在使用 Hadoop 1.2.1，eclipse juno。我正在尝试在单个 Mapreduce 作业中链接三个地图任务。在 Eclipse 中编写 Mapreduce 代码时，我遇到了错误，例如 chainmapper 不适用于参数，而且我也无法设置输入路径。以下是我的mapreduce代码，

谁能帮我解决这个问题？

eclipse hadoop hadoop-streaming hadoop2 hadoop-partitioning

2014-08-11T06:44:26.077

1 2 3 4 5 6 7 8 9 10

问题标签 [hadoop-partitioning]

Reference