问题标签 [hadoop-partitioning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
905 浏览

hadoop - 新用户 SSH hadoop

在单节点集群上安装hadoop,知道为什么我们需要创建以下内容

  1. 为什么我们需要新用户的 SSH 访问权限..?

  2. 为什么它应该能够连接到自己的用户帐户?

  3. 为什么我应该为新用户指定密码少..?

  4. 当所有节点都在同一台机器上时,为什么它们要显式通信..?

http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

0 投票
0 回答
2649 浏览

hadoop - 从 Hive 中的现有非分区表创建具有动态分区的新表

我在 HIVE 中有现有的表结构,它具有各种字段,例如(a 字符串、b 字符串、tstamp 字符串、c 字符串),包括一个 tstamp 字段。

我需要从现有表(original_table)创建一个新的分区表(table_partitioned),但现在这个新表结构应该根据“tstamp”字段的日期部分进行分区。

为了解决这个问题,我创建了一个类似于现有表结构的新表模式,并使用以下查询添加了一个名为“date_string”的分区列:-

然后我尝试使用以下插入查询将数据插入“table_partitioned”:-

但是上面的插入语句会遇到如下各种错误:-

如果我通过在下面的 Insert 语句中放置 where 子句仅加载一些数据,那么它会为匹配的行创建分区:-

注意:- 我每天有大约 2,00,000 个数据条目,例如 2013 年 7 月 23 日,而 original_table 有 2 年健全的数据。

我怎样才能一次插入所有数据,我是否遗漏了什么?

0 投票
1 回答
5722 浏览

hadoop - 在 hadoop 多节点集群上启动 HDFS 守护程序时出错

Hadoop多节点设置时的问题。一旦我在Master上启动我的hdfs恶魔(bin / start-dfs.sh)

我确实得到了以下关于大师的日志

我确实得到了以下奴隶@的日志

hadoop-hduser-datanode-localhost.localdomain.log 文件

有人可以告诉我,设置有什么问题。

0 投票
1 回答
1309 浏览

hadoop - DiskErrorException on slave machine - Hadoop multinode

I am trying to process XML files from hadoop, i got following error on invoking word-count job on XML files .

i observer following error at hadoop-hduser-tasktracker-localhost.localdomain.log file on slave machine .

This works fine when i ran for text files

0 投票
1 回答
5853 浏览

hadoop - Hadoop 网络用户:没有这样的用户

在运行 hadoop 多节点集群时,我在主日志上收到以下错误消息,有人可以建议该怎么做..?我需要创建一个新用户还是我可以在这里给我现有的机器用户名

2013-07-25 19:41:11,765 警告 org.apache.hadoop.security.UserGroupInformation:没有可供用户网络用户使用的组 2013-07-25 19:41:11,778 警告 org.apache.hadoop.security.ShellBasedUnixGroupsMapping:出现异常试图获取用户 webuser org.apache.hadoop.util.Shell$ExitCodeException: id: webuser: No such user 的组

hdfs-site.xml 文件

核心站点.xml

mapred-site.xml

我跟着http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

Hadoop 1.2.0 码头-6.1.26

添加我的 hdfs-site.xml 后看起来

0 投票
2 回答
1348 浏览

java - 处理 Hadoop mapreduce 中键值的不均匀分布

我正在处理 hadoop 中的输入日志文件,其中键分布不均匀。这意味着减速器的值分布不均匀。例如 key1 有 1 个值,而 key2 有 1000 个值。

有什么方法可以对与同一个键关联的值进行负载平衡[我也不想修改我的键]

0 投票
2 回答
3331 浏览

hadoop - 获取系统目录失败-hadoop

使用 hadoop 多节点设置(1 个 mater,1 个 salve)

在 master 上启动 start-mapred.sh 后,我在 TT 日志中发现以下错误(从属)

org.apache.hadoop.mapred.TaskTracker:获取系统目录失败

有人可以帮我知道可以做些什么来避免这个错误

我正在使用 Hadoop 1.2.0 jetty-6.1.26 java 版本“1.6.0_23”

mapred-site.xml 文件

核心站点.xml

0 投票
1 回答
920 浏览

hadoop - Hadoop map任务的执行顺序/优先级

我的 Hadoop 输入文件中有大约 5000 个条目,但我事先知道某些行的处理时间比其他行要长得多(在映射阶段)。(主要是因为我需要从 Amazon S3 下载一个文件,而且文件的大小会因任务而异)

我想确保首先处理最大的地图任务,以确保我的所有 hadoop 节点将大致同时完成工作。

有没有办法用 Hadoop 做到这一点?还是我需要重做整个事情?(我是 Hadoop 新手)

谢谢!

0 投票
2 回答
3717 浏览

hadoop - 使用hadoop map reduce获取最高工资员工姓名

我对 M/R 程序非常陌生..我在 HDFS 中有一个文件,其中包含这种结构中的数据

EmpId,EmpName,部门,薪水,

1231,用户名1,部门1,5000
1232,用户名2,部门2,6000
1233,用户名3,部门3,7000

.
…………………………………………………………………………………………………………

现在我想找到薪水最高的员工的名字

我写了一个 map reduce 来找到最高薪水。在我的映射器类中,我发出了这样的输出

output.collect("最大值",员工工资);

在减速器中,我找到了键“最大值”的最大值。现在我想在映射器中使用这个值并找到获得最高薪水的员工的姓名。如何将减速器输出发送到映射器作为输入?这是完成我的任务的好方法吗?还有其他建议吗?

0 投票
1 回答
6647 浏览

hadoop - understanding custom partitioner in hadoop

i am learning partitioner concept now.can any one explain me the below piece of code.it is hard for me to understand

how this taggedKey.getJoinKey().hashCode() % numPartitions determine which reducer to be executed for a key?

can any one explain me this?