我正在开发一个使用 GCD 运行大量后台作业的 MacOS X 应用程序。后台作业使用 CLucene 来索引文档,并在子上下文中访问 Core Data。
这些作业都是按顺序生成的(在使用 DISPATCH_QUEUE_CONCURRENT 创建的队列上使用 dispatch_async),但一次只有 4 个执行实际工作。这是使用 dispatch_semaphore_t 完成的,通过在作业开始时等待它并在作业完成时释放它。
在以下情况下,我看到了一个非常奇怪、可靠可重现的死锁:
- 后台作业仍在运行
- 用户将焦点切换到另一个应用程序,然后返回
NSWindow 在显示菜单栏时尝试发送通知显然是死锁的。这是发生这种情况时主线程的堆栈跟踪:
#0 0x00007fff870ae6c2 in semaphore_wait_trap ()
#1 0x00007fff8b1bf486 in _dispatch_semaphore_wait_slow ()
#2 0x00007fff8b69c12b in -[_NSDNXPCConnection sendMessage:waitForAck:] ()
#3 0x00007fff8b57ced5 in _CFXNotificationPost ()
#4 0x00007fff8b58bbf3 in CFNotificationCenterPostNotification ()
#5 0x00007fff902ae174 in HIS_XPC_CFNotificationCenterPostNotification ()
#6 0x00007fff8bd3612a in BroadcastToolboxMessage ()
#7 0x00007fff8bd6d063 in MenuBarInstance::Show(MenuBarAnimationStyle, unsigned char, unsigned char, unsigned char) ()
#8 0x00007fff8bd98144 in SetMenuBarObscured ()
#9 0x00007fff8bd97e0f in HIApplication::HandleActivated(OpaqueEventRef*, unsigned char, OpaqueWindowPtr*) ()
#10 0x00007fff8bd95407 in HIApplication::EventObserver(unsigned int, OpaqueEventRef*, void*) ()
#11 0x00007fff8bd636e0 in _NotifyEventLoopObservers ()
#12 0x00007fff898dc018 in -[NSWindow sendEvent:] ()
#13 0x00007fff898d8744 in -[NSApplication sendEvent:] ()
#14 0x00007fff897ee2fa in -[NSApplication run] ()
#15 0x00007fff89792cb6 in NSApplicationMain ()
#16 0x0000000100001e52 in main at /Users/mspong/dev/Indx/Indx/Indx/main.m:13
#17 0x00007fff86b7b7e1 in start ()
所有正在运行的后台作业都完成了它们的工作,但没有其他作业可以访问上述信号量。每个线程都卡在 semaphore_wait_trap 上。
我无法想象我可能会做什么(显然)导致不相关的信号量(我的和苹果的)卡住。有人可以就如何进一步调查提供一些建议吗?