2

我正在开发一个使用 GCD 运行大量后台作业的 MacOS X 应用程序。后台作业使用 CLucene 来索引文档,并在子上下文中访问 Core Data。

这些作业都是按顺序生成的(在使用 DISPATCH_QUEUE_CONCURRENT 创建的队列上使用 dispatch_async),但一次只有 4 个执行实际工作。这是使用 dispatch_semaphore_t 完成的,通过在作业开始时等待它并在作业完成时释放它。

在以下情况下,我看到了一个非常奇怪、可靠可重现的死锁:

  1. 后台作业仍在运行
  2. 用户将焦点切换到另一个应用程序,然后返回

NSWindow 在显示菜单栏时尝试发送通知显然是死锁的。这是发生这种情况时主线程的堆栈跟踪:


#0  0x00007fff870ae6c2 in semaphore_wait_trap ()
#1  0x00007fff8b1bf486 in _dispatch_semaphore_wait_slow ()
#2  0x00007fff8b69c12b in -[_NSDNXPCConnection sendMessage:waitForAck:] ()
#3  0x00007fff8b57ced5 in _CFXNotificationPost ()
#4  0x00007fff8b58bbf3 in CFNotificationCenterPostNotification ()
#5  0x00007fff902ae174 in HIS_XPC_CFNotificationCenterPostNotification ()
#6  0x00007fff8bd3612a in BroadcastToolboxMessage ()
#7  0x00007fff8bd6d063 in MenuBarInstance::Show(MenuBarAnimationStyle, unsigned char, unsigned char, unsigned char) ()
#8  0x00007fff8bd98144 in SetMenuBarObscured ()
#9  0x00007fff8bd97e0f in HIApplication::HandleActivated(OpaqueEventRef*, unsigned char, OpaqueWindowPtr*) ()
#10 0x00007fff8bd95407 in HIApplication::EventObserver(unsigned int, OpaqueEventRef*, void*) ()
#11 0x00007fff8bd636e0 in _NotifyEventLoopObservers ()
#12 0x00007fff898dc018 in -[NSWindow sendEvent:] ()
#13 0x00007fff898d8744 in -[NSApplication sendEvent:] ()
#14 0x00007fff897ee2fa in -[NSApplication run] ()
#15 0x00007fff89792cb6 in NSApplicationMain ()
#16 0x0000000100001e52 in main at /Users/mspong/dev/Indx/Indx/Indx/main.m:13
#17 0x00007fff86b7b7e1 in start ()

所有正在运行的后台作业都完成了它们的工作,但没有其他作业可以访问上述信号量。每个线程都卡在 semaphore_wait_trap 上。

我无法想象我可能会做什么(显然)导致不相关的信号量(我的和苹果的)卡住。有人可以就如何进一步调查提供一些建议吗?

4

1 回答 1

6

您是否有可能达到 GCD 并发队列线程限制(64 个线程),然后做一些尝试在并发队列上工作的事情?这将导致整个框架的随机死锁。

如果是这种情况,我唯一的建议是:永远不要阻塞在并发队列中。

于 2012-10-30T23:02:50.423 回答