问题标签 [hadoop-partitioning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 未调用 hadoop mapreduce 分区程序
我需要有关 mapreduce 工作的帮助,我的自定义分区器从未被调用。我检查了所有内容数百万次,但没有结果。前一阵子还可以用,不知道为什么现在不行了。任何帮助都会非常感激。
我正在添加代码(对于非常简单的情况,它也不适用于自定义键作为输入)。
Mapper 输出正确的值 100%,然后跳过 partitioner。
非常感谢,
亚历克斯
hadoop - HDInsight Azure Blob 存储数据更新
我正在考虑在 Azure Blob 存储上加载 Hive 和数据的 HDInsight。
有历史数据和变化数据的组合。
Update中提到的解决方案,Hive 中的 SET 选项是否也适用于 blob 存储?
下面的 Hive 语句更改 blob 存储中的数据,这也是我的要求吗?
hadoop - Hadoop in action 专利示例说明
我正在浏览 Hadoop 中的专利数据示例。您能否详细解释一下正在使用的数据集?
专利引文数据集
该数据集包含两列引用和被引专利。施引栏是指提交专利的所有者ID?被引列是指构成第二个数据集的关键的专利 ID?专利描述数据集
该数据集中 有多个字段。为了形成这两个数据集的映射,它是从第一个数据集中引用或引用的列,在第二个数据集的第一列中具有相应的键(专利)?
java - Hadoop Map 任务/Map 对象
根据理论,以下属性是在数据节点定义地图/红色任务槽的数量。
mapred.tasktracker.map.tasks.maximum | mapred.map.tasks
.
此外,映射器对象的数量由 MapReduce 作业中的输入拆分数量决定。我们实现 map/red 功能,框架创建对象并将它们发送到最接近数据块的位置。
那么map task slot和framework创建的mapper对象有什么区别呢?
假设我在 5 个数据节点上存储 2TB 文件,每个节点有 400Mb。如果我定义dfs.block.size =100Mb
,那么每个节点将保存 400/100 = 4 个数据块。在这里,理想情况下,在 4 个数据块中,我们可以有 4 个输入拆分,然后每个节点有 4 个映射器对象。同时,如果我定义mapred.tasktracker.map.tasks.maximum = 2
& mapred.map.tasks=2
,那么我可以从中得出什么结论。我可以说 4 个映射器对象将在 2 个映射任务槽之间共享吗?我可能会走错方向,任何澄清都会有所帮助。
hadoop - 减速器的输出发送到 HDFS,其中映射输出存储在数据节点本地磁盘中?
我对 HDFS 存储和数据节点存储有点困惑。以下是我的疑惑。
Map 函数输出将保存到数据节点本地磁盘,reducer 输出将发送到 HDFS。众所周知,数据块存储在数据节点本地磁盘中,数据节点中还有其他磁盘空间可用于HDFS吗?
reducer 输出文件(part-nnnnn-r-00001)的物理存储位置是什么?它会存储在名称节点硬盘中吗?
所以我的假设是数据节点是 HDFS 的一部分我假设数据节点本地磁盘也是 HDFS 的一部分。
问候苏雷什
hadoop - 我可以获得 Hadoop 的分区号吗?
我是hadoop
新手。
我想获得输出文件的分区号。
起初,我做了一个定制的分区器。
有用。但是,我想在 Reducer 上“直观地”输出分区号。
我怎样才能得到一个分区号?
下面是我的减速器来源。
我想分别在“列表”上放置一个分区号。将有“0”或“1”。
如果有人帮助我,那就太好了。
+
感谢答案,我得到了解决方案。但是,它没有用,我认为我做错了什么。
下面是修改后的 MyPartitioner。
公共静态类 MyPartitioner 扩展 Partitioner {
hadoop - hadoop命令在节点中查找namenode
我试过了
脚步
结果
这工作正常,但我知道在节点中查找 namenode 的任何其他命令
mysql - 从hadoop更新mysql记录
我完成了一个读取 iTunes EPF 文件并将这些记录插入 mysql 数据库表的过程。
其中,在插入记录之前,我需要检查给定记录是否存在于数据库中。如果记录不存在,那么我将插入记录。但是如果记录已经存在于数据库中,那么我需要更新mysql中的相应记录。
如何检查mysql中的记录是否存在。是否可以在 Mapper 或 Reducer 类中进行此检查..?以及,如果记录存在如何更新记录。
hadoop - 使用索引对 HIVE 表进行性能调整 - 工作和问题?
我有一个有 3 列的external
蜂巢表-abc
COMPACT index
我确实在列上创建了一个作为延迟重建语句的c1
一部分。create index
现在,我做一个alter index on abc with rebuild
; 所以我的索引表加载了偏移量和数据。
这是我的查询:
1)我应该查询基表abc
以查看性能改进吗?
2)我应该查询新的索引表吗?
3)这是唯一要设置的属性 -set hive.optimize.index.filter=true
吗?
尽管对 column 进行了索引,但当我在 column 上使用过滤条件c1
查询表时,我没有看到任何性能改进;甚至计划也没有显示使用索引的情况。abc
c1
explain
问题是什么?谁能指导我,谢谢。
hadoop - hadoop如何添加硬盘
我在 Ubuntu 14.04 上安装了 Hadoop 2.4,现在我正在尝试将内部 sata HD 添加到现有集群。
我已经在 /mnt/hadoop 中安装了新的 hd 并将其所有权分配给 hadoop 用户
然后我尝试将其添加到配置文件中,如下所示:
之后,我启动了 hdfs:
似乎它没有启动第二个高清
这是我的 core-site.xml
此外,我尝试刷新名称节点,但出现连接问题:
另外,我无法连接到 Hadoop Web 界面。看来我有两个相关的问题:
这些问题有关系吗?我该如何解决这些问题?
谢谢
编辑
我可以 ping 本地主机,我可以访问 localhost:50090/status.jsp
但是,我无法访问 50030 和 50070