“hadoop-partitioning”的相关标签问题

0 投票

1 回答

853 浏览

hadoop - 未调用 hadoop mapreduce 分区程序

我需要有关 mapreduce 工作的帮助，我的自定义分区器从未被调用。我检查了所有内容数百万次，但没有结果。前一阵子还可以用，不知道为什么现在不行了。任何帮助都会非常感激。
我正在添加代码（对于非常简单的情况，它也不适用于自定义键作为输入）。
Mapper 输出正确的值 100%，然后跳过 partitioner。

非常感谢，
亚历克斯

2014-03-06T09:58:31.043

0 投票

1 回答

289 浏览

hadoop - HDInsight Azure Blob 存储数据更新

我正在考虑在 Azure Blob 存储上加载 Hive 和数据的 HDInsight。
有历史数据和变化数据的组合。
Update中提到的解决方案，Hive 中的 SET 选项是否也适用于 blob 存储？
下面的 Hive 语句更改 blob 存储中的数据，这也是我的要求吗？

hadoop hive azure-hdinsight hadoop-partitioning azure-blob-storage

2014-03-26T10:02:54.753

0 投票

2 回答

416 浏览

hadoop - Hadoop in action 专利示例说明

我正在浏览 Hadoop 中的专利数据示例。您能否详细解释一下正在使用的数据集？

专利引文数据集
该数据集包含两列引用和被引专利。施引栏是指提交专利的所有者ID？被引列是指构成第二个数据集的关键的专利 ID？
专利描述数据集
该数据集中有多个字段。为了形成这两个数据集的映射，它是从第一个数据集中引用或引用的列，在第二个数据集的第一列中具有相应的键（专利）？

hadoop hadoop-streaming hadoop-partitioning

2014-04-03T02:18:16.550

0 投票

1 回答

250 浏览

java - Hadoop Map 任务/Map 对象

根据理论，以下属性是在数据节点定义地图/红色任务槽的数量。 mapred.tasktracker.map.tasks.maximum | mapred.map.tasks.

此外，映射器对象的数量由 MapReduce 作业中的输入拆分数量决定。我们实现 map/red 功能，框架创建对象并将它们发送到最接近数据块的位置。

那么map task slot和framework创建的mapper对象有什么区别呢？

假设我在 5 个数据节点上存储 2TB 文件，每个节点有 400Mb。如果我定义dfs.block.size =100Mb，那么每个节点将保存 400/100 = 4 个数据块。在这里，理想情况下，在 4 个数据块中，我们可以有 4 个输入拆分，然后每个节点有 4 个映射器对象。同时，如果我定义mapred.tasktracker.map.tasks.maximum = 2& mapred.map.tasks=2，那么我可以从中得出什么结论。我可以说 4 个映射器对象将在 2 个映射任务槽之间共享吗？我可能会走错方向，任何澄清都会有所帮助。

java hadoop mapreduce hadoop-streaming hadoop-partitioning

2014-04-21T15:26:12.437

0 投票

2 回答

3115 浏览

hadoop - 减速器的输出发送到 HDFS，其中映射输出存储在数据节点本地磁盘中？

我对 HDFS 存储和数据节点存储有点困惑。以下是我的疑惑。

Map 函数输出将保存到数据节点本地磁盘，reducer 输出将发送到 HDFS。众所周知，数据块存储在数据节点本地磁盘中，数据节点中还有其他磁盘空间可用于HDFS吗？
reducer 输出文件（part-nnnnn-r-00001）的物理存储位置是什么？它会存储在名称节点硬盘中吗？

所以我的假设是数据节点是 HDFS 的一部分我假设数据节点本地磁盘也是 HDFS 的一部分。

问候苏雷什

hadoop hadoop-streaming hadoop-partitioning hadoop2

2014-04-22T11:32:20.553

0 投票

1 回答

731 浏览

hadoop - 我可以获得 Hadoop 的分区号吗？

我是hadoop新手。

我想获得输出文件的分区号。

起初，我做了一个定制的分区器。

有用。但是，我想在 Reducer 上“直观地”输出分区号。

我怎样才能得到一个分区号？

下面是我的减速器来源。

我想分别在“列表”上放置一个分区号。将有“0”或“1”。

如果有人帮助我，那就太好了。

+

感谢答案，我得到了解决方案。但是，它没有用，我认为我做错了什么。

下面是修改后的 MyPartitioner。

公共静态类 MyPartitioner 扩展 Partitioner {

hadoop mapreduce hadoop-partitioning

2014-04-26T17:21:43.240

0 投票

3 回答

8102 浏览

hadoop - hadoop命令在节点中查找namenode

我试过了

脚步

结果

这工作正常，但我知道在节点中查找 namenode 的任何其他命令

hadoop hadoop-streaming hadoop-partitioning

2014-05-21T05:29:59.883

0 投票

2 回答

180 浏览

mysql - 从hadoop更新mysql记录

我完成了一个读取 iTunes EPF 文件并将这些记录插入 mysql 数据库表的过程。

其中，在插入记录之前，我需要检查给定记录是否存在于数据库中。如果记录不存在，那么我将插入记录。但是如果记录已经存在于数据库中，那么我需要更新mysql中的相应记录。

如何检查mysql中的记录是否存在。是否可以在 Mapper 或 Reducer 类中进行此检查..？以及，如果记录存在如何更新记录。

mysql hadoop hadoop-streaming hadoop-plugins hadoop-partitioning

2014-06-06T11:23:44.660

0 投票

0 回答

990 浏览

hadoop - 使用索引对 HIVE 表进行性能调整 - 工作和问题？

我有一个有 3 列的external蜂巢表-abc

COMPACT index我确实在列上创建了一个作为延迟重建语句的c1一部分。create index

现在，我做一个alter index on abc with rebuild; 所以我的索引表加载了偏移量和数据。

这是我的查询：

1）我应该查询基表abc以查看性能改进吗？

2）我应该查询新的索引表吗？

3）这是唯一要设置的属性 -set hive.optimize.index.filter=true吗？

尽管对 column 进行了索引，但当我在 column 上使用过滤条件c1查询表时，我没有看到任何性能改进；甚至计划也没有显示使用索引的情况。abcc1explain

问题是什么？谁能指导我，谢谢。

hadoop hive hiveql hadoop-partitioning

2014-06-13T21:04:48.740

0 投票

2 回答

5797 浏览

hadoop - hadoop如何添加硬盘

我在 Ubuntu 14.04 上安装了 Hadoop 2.4，现在我正在尝试将内部 sata HD 添加到现有集群。

我已经在 /mnt/hadoop 中安装了新的 hd 并将其所有权分配给 hadoop 用户

然后我尝试将其添加到配置文件中，如下所示：

之后，我启动了 hdfs：

似乎它没有启动第二个高清

这是我的 core-site.xml

此外，我尝试刷新名称节点，但出现连接问题：

另外，我无法连接到 Hadoop Web 界面。看来我有两个相关的问题：

这些问题有关系吗？我该如何解决这些问题？

谢谢

编辑

我可以 ping 本地主机，我可以访问 localhost:50090/status.jsp

但是，我无法访问 50030 和 50070

hadoop hadoop-partitioning hadoop2

2014-06-16T09:32:35.420

问题标签 [hadoop-partitioning]

Reference