问题标签 [hadoop-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
853 浏览

hadoop - 未调用 hadoop mapreduce 分区程序


我需要有关 mapreduce 工作的帮助,我的自定义分区器从未被调用。我检查了所有内容数百万次,但没有结果。前一阵子还可以用,不知道为什么现在不行了。任何帮助都会非常感激。
我正在添加代码(对于非常简单的情况,它也不适用于自定义键作为输入)。
Mapper 输出正确的值 100%,然后跳过 partitioner。

非常感谢,
亚历克斯

0 投票
1 回答
289 浏览

hadoop - HDInsight Azure Blob 存储数据更新

我正在考虑在 Azure Blob 存储上加载 Hive 和数据的 HDInsight。
有历史数据和变化数据的组合。
Update中提到的解决方案,Hive 中的 SET 选项是否也适用于 blob 存储?
下面的 Hive 语句更改 blob 存储中的数据,这也是我的要求吗?

0 投票
2 回答
416 浏览

hadoop - Hadoop in action 专利示例说明

我正在浏览 Hadoop 中的专利数据示例。您能否详细解释一下正在使用的数据集?

  1. 专利引文数据集
    该数据集包含两列引用和被引专利。施引栏是指提交专利的所有者ID?被引列是指构成第二个数据集的关键的专利 ID?

  2. 专利描述数据集
    该数据集中 有多个字段。为了形成这两个数据集的映射,它是从第一个数据集中引用引用的列,在第二个数据集的第一列中具有相应的键(专利)?

0 投票
1 回答
250 浏览

java - Hadoop Map 任务/Map 对象

根据理论,以下属性是在数据节点定义地图/红色任务槽的数量。 mapred.tasktracker.map.tasks.maximum | mapred.map.tasks.

此外,映射器对象的数量由 MapReduce 作业中的输入拆分数量决定。我们实现 map/red 功能,框架创建对象并将它们发送到最接近数据块的位置。

那么map task slot和framework创建的mapper对象有什么区别呢?

假设我在 5 个数据节点上存储 2TB 文件,每个节点有 400Mb。如果我定义dfs.block.size =100Mb,那么每个节点将保存 400/100 = 4 个数据块。在这里,理想情况下,在 4 个数据块中,我们可以有 4 个输入拆分,然后每个节点有 4 个映射器对象。同时,如果我定义mapred.tasktracker.map.tasks.maximum = 2& mapred.map.tasks=2,那么我可以从中得出什么结论。我可以说 4 个映射器对象将在 2 个映射任务槽之间共享吗?我可能会走错方向,任何澄清都会有所帮助。

0 投票
2 回答
3115 浏览

hadoop - 减速器的输出发送到 HDFS,其中映射输出存储在数据节点本地磁盘中?

我对 HDFS 存储和数据节点存储有点困惑。以下是我的疑惑。

  1. Map 函数输出将保存到数据节点本地磁盘,reducer 输出将发送到 HDFS。众所周知,数据块存储在数据节点本地磁盘中,数据节点中还有其他磁盘空间可用于HDFS吗?

  2. reducer 输出文件(part-nnnnn-r-00001)的物理存储位置是什么?它会存储在名称节点硬盘中吗?

所以我的假设是数据节点是 HDFS 的一部分我假设数据节点本地磁盘也是 HDFS 的一部分。

问候苏雷什

0 投票
1 回答
731 浏览

hadoop - 我可以获得 Hadoop 的分区号​​吗?

我是hadoop新手。

我想获得输出文件的分区号。

起初,我做了一个定制的分区器。



有用。但是,我想在 Reducer 上“直观地”输出分区号。

我怎样才能得到一个分区号?

下面是我的减速器来源。



我想分别在“列表”上放置一个分区号。将有“0”或“1”。


如果有人帮助我,那就太好了。

+

感谢答案,我得到了解决方案。但是,它没有用,我认为我做错了什么。

下面是修改后的 MyPartitioner。


公共静态类 MyPartitioner 扩展 Partitioner {

0 投票
3 回答
8102 浏览

hadoop - hadoop命令在节点中查找namenode

我试过了

脚步

结果

这工作正常,但我知道在节点中查找 namenode 的任何其他命令

0 投票
2 回答
180 浏览

mysql - 从hadoop更新mysql记录

我完成了一个读取 iTunes EPF 文件并将这些记录插入 mysql 数据库表的过程。

其中,在插入记录之前,我需要检查给定记录是否存在于数据库中如果记录不存在,那么我将插入记录。但是如果记录已经存在于数据库中,那么我需要更新mysql中的相应记录。

如何检查mysql中的记录是否存在。是否可以在 Mapper 或 Reducer 类中进行此检查..?以及,如果记录存在如何更新记录。

0 投票
0 回答
990 浏览

hadoop - 使用索引对 HIVE 表进行性能调整 - 工作和问题?

我有一个有 3 列的external蜂巢表-abc

COMPACT index我确实在列上创建了一个作为延迟重建语句的c1一部分。create index

现在,我做一个alter index on abc with rebuild; 所以我的索引表加载了偏移量和数据。

这是我的查询:

1)我应该查询基表abc以查看性能改进吗?

2)我应该查询新的索引表吗?

3)这是唯一要设置的属性 -set hive.optimize.index.filter=true吗?

尽管对 column 进行了索引,但当我在 column 上使用过滤条件c1查询表时,我没有看到任何性能改进;甚至计划也没有显示使用索引的情况。abcc1explain

问题是什么?谁能指导我,谢谢。

0 投票
2 回答
5797 浏览

hadoop - hadoop如何添加硬盘

我在 Ubuntu 14.04 上安装了 Hadoop 2.4,现在我正在尝试将内部 sata HD 添加到现有集群。

我已经在 /mnt/hadoop 中安装了新的 hd 并将其所有权分配给 hadoop 用户

然后我尝试将其添加到配置文件中,如下所示:

之后,我启动了 hdfs:

似乎它没有启动第二个高清

这是我的 core-site.xml

此外,我尝试刷新名称节点,但出现连接问题:

另外,我无法连接到 Hadoop Web 界面。看来我有两个相关的问题:

这些问题有关系吗?我该如何解决这些问题?

谢谢

编辑

我可以 ping 本地主机,我可以访问 localhost:50090/status.jsp

但是,我无法访问 50030 和 50070