我想知道是否有一种简单的方法可以获取特定运行的所有作业日志/任务尝试日志,并将它们保存在某个地方(也许是 HDFS)?
我知道对于任何特定作业的任务尝试,日志都在本地文件系统上/var/log/hadoop-0.20-mapreduce/userlogs
,并且我可以编写一个脚本以通过 SSH 连接到每个从属节点并将它们全部收集起来。但是,如果有意义的话,我会尽量避免这种情况——也许有一些我不知道的 Hadoop 内置功能?
我确实找到了这个链接,它很旧,但包含一些有用的信息——但没有包含我正在寻找的答案。
mapreduce.job.userlog.retain.hours
默认设置为 24,因此任何作业的日志将在 1 天后自动清除。除了增加retain.hours
参数的值以使这些保持不变之外,我还能做些什么?