21

我有一些带有竞态条件的代码......我知道这是一个竞态条件,因为它不会始终如一地发生,而且它似乎更频繁地发生在双核机器上。

当我追踪时,它永远不会发生。虽然,它也有可能是一个僵局。通过分析日志的完成阶段,我已经能够将这个错误定位到单个函数。但是,我不知道这是在函数范围内发生的。它不在顶层。

如果是竞态条件,添加日志语句或断点将改变时间,并防止这种情况发生。

除了获得一个可以让我查明发生这种情况的竞争条件分析器之外,我还可以使用任何技术吗?

这是在 Visual Studio 9 中,使用 C++(非托管品种)。

4

8 回答 8

10

CLang 和 gcc 4.8+ 中包含一个名为ThreadSanitizer的工具。

您使用-fsanitize=thread标志编译代码

例子:

$ cat simple_race.cc
#include <pthread.h>
#include <stdio.h>

int Global;

void *Thread1(void *x) {
  Global++;
  return NULL;
}

void *Thread2(void *x) {
  Global--;
  return NULL;
}

int main() {
  pthread_t t[2];
  pthread_create(&t[0], NULL, Thread1, NULL);
  pthread_create(&t[1], NULL, Thread2, NULL);
  pthread_join(t[0], NULL);
  pthread_join(t[1], NULL);
}

和输出

$ clang++ simple_race.cc -fsanitize=thread -fPIE -pie -g
$ ./a.out 
==================
WARNING: ThreadSanitizer: data race (pid=26327)
  Write of size 4 at 0x7f89554701d0 by thread T1:
    #0 Thread1(void*) simple_race.cc:8 (exe+0x000000006e66)

  Previous write of size 4 at 0x7f89554701d0 by thread T2:
    #0 Thread2(void*) simple_race.cc:13 (exe+0x000000006ed6)

  Thread T1 (tid=26328, running) created at:
    #0 pthread_create tsan_interceptors.cc:683 (exe+0x00000001108b)
    #1 main simple_race.cc:19 (exe+0x000000006f39)

  Thread T2 (tid=26329, running) created at:
    #0 pthread_create tsan_interceptors.cc:683 (exe+0x00000001108b)
    #1 main simple_race.cc:20 (exe+0x000000006f63)
==================
ThreadSanitizer: reported 1 warnings
于 2016-01-15T10:01:29.843 回答
6

在代码的各个部分放置睡眠。即使它(或异步代码)休眠几秒钟,线程安全的东西也将是线程安全的。

于 2010-06-28T19:10:55.607 回答
2

确实有一些尝试自动找到竞争条件。

我与竞争条件检测一起阅读的另一个术语是 RaceFuzzer,但我无法找到关于它的真正有用的信息。

我认为这是一个相对年轻的研究领域,所以据我所知,主要是关于这个主题的理论论文。但是,尝试使用谷歌搜索上述关键字之一,也许您会找到一些有用的信息。

于 2010-06-28T18:47:22.717 回答
2

我知道追踪这些的最好方法是在 Visual Studio中使用CHESS 。这不是一个简单易用的工具,可能需要逐步测试应用程序的子部分。祝你好运。

于 2010-06-28T18:47:46.183 回答
2

我很幸运地使用了 Visual Studio 的跟踪点来查找竞争条件。当然,它仍然会影响计时,但至少在我使用它的情况下,它还不足以完全防止竞争条件的发生。至少,它似乎没有专门的日志记录那么具有破坏性。

除此之外,请尝试发布代码以允许其他人查看。仅仅详细研究代码并不是找到竞争条件的好方法。

于 2010-06-28T19:05:16.373 回答
2

所以,对我来说,大锤方法如下,这需要很大的耐心,并且在最好的情况下可以让你走上正轨。我用它来弄清楚这个特定问题发生了什么。我一直在使用tracepoints,一个在怀疑高级函数的开头,一个在结尾。向下移动跟踪点。如果在函数开头添加跟踪点导致您的错误停止发生,请向下移动跟踪点,直到您可以再次重现该条件。这个想法是,如果您将跟踪点放在最终触发不安全代码的调用之后,则跟踪点不会影响时间,但如果您将它放在之前,则会影响时间。另外,请注意您的输出窗口。您的错误发生在哪些消息之间?您也可以使用跟踪点来缩小此范围。

一旦您将错误缩小到可管理的代码区域,您就可以设置断点并查看此时其他线程在做什么。

于 2010-06-28T23:11:31.243 回答
1

它也可以是不受保护的资源,这可以解释不一致的行为(特别是如果在单核上它工作正常而不是在双核上)。无论如何,代码审查(针对竞争条件和非线程安全的源代码)可能是解决问题的最短路径。

于 2010-06-28T19:33:35.053 回答
0

您可以使用诸如Intel Inspector之类的工具来检查某些类型的竞争条件。

于 2013-02-14T07:30:15.150 回答