我一直在尝试解决一个问题,即某些脚本的执行会导致死锁,将所有后续请求置于边缘,占用 99.9% 的 CPU,并最终导致服务器崩溃。
下面是一个示例堆栈跟踪,其中一个请求已被置于边缘(永远等待):
Thread Stack Trace
Trace Time: 21:00:44.463 06-Jun-2012
Request ID: 6131
Script Name: http://www.example.com/allreviews.cfm
Started: 21:00:21.225 06-Jun-2012
Exec Time: 23238ms
Memory Used: (24%)230,667KB
Memory Free: 701,428KB
Thread ID: 0x191e (6430)
Thread Name: jrpp-494
Priority: 5
Hashcode: 1081611879
State: WAITING
"jrpp-494" prio=5 in Object.wait()
java.lang.Object.wait(Object.java:???)[Native Method]
- waiting on <0x9253305> (a coldfusion.util.AbstractCache$Lock)
java.lang.Object.wait(Object.java:485)
coldfusion.util.AbstractCache.fetch(AbstractCache.java:46)
coldfusion.util.SoftCache.get_statsOff(SoftCache.java:133)
coldfusion.util.SoftCache.get(SoftCache.java:81)
coldfusion.runtime.TemplateClassLoader.findClass(TemplateClassLoader.java:609)
coldfusion.runtime.RuntimeServiceImpl.getFile(RuntimeServiceImpl.java:785)
coldfusion.runtime.RuntimeServiceImpl.resolveTemplatePath(RuntimeServiceImpl.java:766)
coldfusion.tagext.lang.CustomTag.setName(CustomTag.java:21)
cfApplication2ecfm456206189._factor0(/srv/www/htdocs/www.example.com/www/Application.cfm:28)
cfApplication2ecfm456206189.runPage(/srv/www/htdocs/www.example.com/www/Application.cfm:1)
coldfusion.runtime.CfJspPage.invoke(CfJspPage.java:231)
coldfusion.tagext.lang.IncludeTag.doStartTag(IncludeTag.java:416)
coldfusion.filter.CfincludeFilter.invoke(CfincludeFilter.java:65)
coldfusion.filter.CfincludeFilter.include(CfincludeFilter.java:33)
coldfusion.filter.ApplicationFilter.invoke(ApplicationFilter.java:279)
coldfusion.filter.RequestMonitorFilter.invoke(RequestMonitorFilter.java:48)
coldfusion.filter.MonitoringFilter.invoke(MonitoringFilter.java:40)
coldfusion.filter.PathFilter.invoke(PathFilter.java:94)
coldfusion.filter.ExceptionFilter.invoke(ExceptionFilter.java:70)
coldfusion.filter.ClientScopePersistenceFilter.invoke(ClientScopePersistenceFilter.java:28)
coldfusion.filter.BrowserFilter.invoke(BrowserFilter.java:38)
coldfusion.filter.NoCacheFilter.invoke(NoCacheFilter.java:46)
coldfusion.filter.GlobalsFilter.invoke(GlobalsFilter.java:38)
coldfusion.filter.DatasourceFilter.invoke(DatasourceFilter.java:22)
coldfusion.filter.CachingFilter.invoke(CachingFilter.java:62)
coldfusion.CfmServlet.service(CfmServlet.java:200)
coldfusion.bootstrap.BootstrapServlet.service(BootstrapServlet.java:89)
jrun.servlet.FilterChain.doFilter(FilterChain.java:86)
com.intergral.fusionreactor.filter.FusionReactorCoreFilter.doHttpServletRequest(FusionReactorCoreFilter.java:503)
com.intergral.fusionreactor.filter.FusionReactorCoreFilter.doFusionRequest(FusionReactorCoreFilter.java:337)
com.intergral.fusionreactor.filter.FusionReactorCoreFilter.doFilter(FusionReactorCoreFilter.java:246)
com.intergral.fusionreactor.filter.FusionReactorFilter.doFilter(FusionReactorFilter.java:121)
jrun.servlet.FilterChain.doFilter(FilterChain.java:94)
coldfusion.monitor.event.MonitoringServletFilter.doFilter(MonitoringServletFilter.java:42)
coldfusion.bootstrap.BootstrapFilter.doFilter(BootstrapFilter.java:46)
jrun.servlet.FilterChain.doFilter(FilterChain.java:94)
jrun.servlet.FilterChain.service(FilterChain.java:101)
jrun.servlet.ServletInvoker.invoke(ServletInvoker.java:106)
jrun.servlet.JRunInvokerChain.invokeNext(JRunInvokerChain.java:42)
jrun.servlet.JRunRequestDispatcher.invoke(JRunRequestDispatcher.java:286)
jrun.servlet.ServletEngineService.dispatch(ServletEngineService.java:543)
jrun.servlet.jrpp.JRunProxyService.invokeRunnable(JRunProxyService.java:203)
jrunx.scheduler.ThreadPool$DownstreamMetrics.invokeRunnable(ThreadPool.java:320)
jrunx.scheduler.ThreadPool$ThreadThrottle.invokeRunnable(ThreadPool.java:428)
jrunx.scheduler.ThreadPool$UpstreamMetrics.invokeRunnable(ThreadPool.java:266)
jrunx.scheduler.WorkerThread.run(WorkerThread.java:66)
如果你有兴趣,你可以看到完整的堆栈跟踪,顶部有我称之为“锁定脚本”的东西,所有其他人都在等待它。
当我第一次遇到这个问题时,我没有堆栈跟踪。我发布了一个问题,“当 ColdFusion 使 CPU 最大化时,我如何找出它正在咀嚼/窒息的东西? ”。我收到了许多有用的回复,通过查看堆栈跟踪,我能够确定是相同的三个脚本一遍又一遍地导致了这个死锁问题。
在每种情况下,“锁定脚本”的第一行都是:
coldfusion.compiler.ClassReader.skipFully(ClassReader.java:79)
并且所有其他请求都被阻塞在其各自的堆栈跟踪中具有以下行:
- waiting on <0x9253305> (a coldfusion.util.AbstractCache$Lock)
困扰我的一件事是为什么我的请求超时没有得到尊重;这些脚本将永远挂起,永不消亡。WTF,对吧?所以我不得不自己做。因此,当我杀死“锁定脚本”时,其他人就摆脱了困境。那时,如果它们低于请求超时,它们就会完成处理,如果它们超过它(大多数情况下通常都是这样),那么它们就会继续超时。但是它们不会自行超时,并且请求只会堆积起来,直到使用活动线程并且线程队列已满并且一切都停止了。
每次请求时手动杀死它们显然不是解决方案,所以,正如我妻子总是提醒我的那样,“调试,调试,调试”。使用条件<cfabort>
,我逐步完成,发现它一直通过 Application.cfm,通过我的 header.cfm,直到<cfinclude>
问题脚本。如果我把问题脚本放在<cfabort>
里面(即使在最上面),它不会中止并且会发生死锁问题。如果我将它放在包含之前,请求将中止并且将避免死锁问题。奇怪。
这两个地方之间没有代码,对吧?就在包含之前和就在包含内部应该在功能上是等效的,不是吗?可能不会,因为很明显那里正在发生一些事情。
我没有使用任何<cflock>
标签。正在发生的锁定似乎是在模板缓存级别发生的。无论是否在管理员中检查了“受信任的缓存”、“请求中的缓存模板”或“组件缓存”选项(以选中/未选中的任意组合),都会观察到相同的行为。我已经清除了模板缓存和组件缓存不止一次。我一遍又一遍地重新启动CF服务器......一切都无济于事。
在故障排除过程中,我阅读了这篇文章,描述了 CF8 (8.0.1) 中编译器缓存锁定的类似问题,以及应用补丁修复它的说明。但这不是 CF9 ......所以显然我不能应用他们的补丁。
该怎么办?有没有其他人遇到过这个问题?...并有解决方案?