在 Pig 中发出转储后,我在控制台上看到以下消息。我之前已经从有超过 1500 万条记录的 Cassandra 表中将数据加载到猪关系中。
我正在运行一个 5 节点 Hadoop 集群,所有节点都显示如下相同的消息;
信息14:16:22,225企图
有人可以对此有所了解吗?
在网络浏览器中查看作业详细信息,我可以看到 map 和 reduce 任务的数量设置为 1。我的印象是 map 和 reduce 任务分散在 5 个节点上,而不是让一个节点完成所有工作工作?
更新:
我已经按照建议在一个 Hadoop 节点(500 万个项目)上运行了测试,在 Pig 中发出 Dump 后我仍然看到相同的消息......
INFO 15:55:15,448 JVM with ID: jvm_201310141552_0001_m_-2064359790 given task: attempt_201310141552_0001_m_000002_0 INFO 15:55:20,395 attempt_201310141552_0001_m_000002_0 0.0% setup INFO 15:55:20,397 Task attempt_201310141552_0001_m_000002_0 is done. 信息15:55:20,398报告的und_201310141552_0001_m_000002_0的输出大小为-1信息15:55:20,398 addfreeslot:当前免费插槽:1信息15:55:55:55:21,021任务' 信息15:55:21,031添加任务(地图)' :21,035 LaunchTaskAction (registerTask): 尝试_201310141552_0001_M_0000_0任务状态:未分配的信息15:55:21,035尝试启动:from_2013101415522_0001_m_000000_0哪个需要1个插槽信息15:55:55:21,035:21,035 toss_000 000 000; attempt_201310141552_0001_m_000000_0 which needs 1 slots INFO 15:55:21,036 About to purge task: attempt_201310141552_0001_m_000002_0 INFO 15:55:21,037 Map ID attempt_201310141552_0001_m_000002_0 not found in cache INFO 15:55:21,050 No new JVM spawned for jobId/taskid: job_201310141552_0001/attempt_201310141552_0001_m_000000_0. 尝试重用:jvm_201310141552_0001_m_-2064359790 INFO 15:55:21,421 JVM,ID:jvm_201310141552_0001_m_-2064359790 给定任务:attempt_201310141552_0001_m_0005:21,421, ParNew 的 865 GC:1 个集合 216 毫秒,使用了 89930816;max is 3200253952 INFO 15:55:27,708 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:30,759 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:33,801 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:36,860 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:39,940 attempt_201310141552_0001_m_000000_0 NaN% INFO 15 :55:42,989 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:46,043 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:49,836 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:52,874 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:55,913 attempt_201310141552_0001_m_000000_0 NaN% INFO 15:55:58,958 attempt_201310141552_0001_m_000000_0 NaN% 信息 15:56:02,068 尝试_201310141552_0001_m_000000_0 NaN% 信息 15:56:05,
为什么会这样?
谢谢马吉德