我是Hadoop的初学者。
据我了解,Hadoop 框架以 FIFO 顺序运行作业(默认调度)。
有没有办法告诉框架在特定时间运行作业?
即有没有什么方法可以配置为每天下午 3 点运行该作业?
对此的任何投入都非常感谢。
谢谢,R
我是Hadoop的初学者。
据我了解,Hadoop 框架以 FIFO 顺序运行作业(默认调度)。
有没有办法告诉框架在特定时间运行作业?
即有没有什么方法可以配置为每天下午 3 点运行该作业?
对此的任何投入都非常感谢。
谢谢,R
从外部 Java 调度框架(如 Quartz)调用作业怎么样?然后,您可以根据需要运行作业。
您可以考虑使用 Oozie ( http://yahoo.github.com/oozie/ )。它允许(除其他外):
频率执行:Oozie 工作流规范支持数据和时间触发器。用户可以指定执行频率,并可以等待数据到达以触发工作流中的动作。
它独立于任何其他 Hadoop 调度程序,并且应该与任何其他 Hadoop 调度程序一起使用,因此您的 Hadoop 配置中的任何内容可能都不会改变。
如果 Cron 没有削减它和/或自定义工作流解决方案,我会使用商业调度应用程序。我们使用一种称为 jams 的解决方案,但请记住它是面向 .net 的。
有一个脚本来执行您的 Hadoop 作业,然后使用 at 命令在某个指定时间执行。如果您希望作业定期运行,您可以设置一个 cron 作业来执行您的脚本。