我的生产环境使用石英 2.1.4 运行 java 调度程序作业。在具有 4 台机器的 weblogic 集群服务器上,只有一个计划作业在一个集群节点(节点 1)上正常执行几个月,但节点 2 突然发现节点 1 在昨晚接管执行作业时失败。事实上,节点 1 没有错误(根据服务器、网络、数据库、应用程序日志),此事件导致由于 2 进程并发执行而创建了重复消息。
石英检测节点故障的机制是什么?通过 ping 扫描,或通过 UCP 广播的心跳 ping,或数据库响应时间等?上面有什么配置吗?
我已经阅读了石英配置指南 http://quartz-scheduler.org/documentation/quartz-2.1.x/configuration/ConfigJDBCJobStoreClustering ,但没有答案。
我正在使用 JDBCJobstore。经过详细检查,我们发现有一个数据库(Oracle)语句执行异常长(从5秒到30秒)。事件发生在这段时间。你觉得有关系吗?
我的配置是
` org.quartz.threadPool.threadCount=10
org.quartz.threadPool.threadPriority=5
org.quartz.jobStore.misfireThreshold = 10000
org.quartz.jobStore.class=org.quartz.impl.jdbcjobstore.JobStoreTX `
有人有这个信息吗?谢谢。