0

我正在用 C++ 编写这个相当大的网络模拟器。我一直在定期测试各个部分,因为我正在开发它们,并且在将所有东西放在一起之后,只要我对模拟器施加的负载不太大,它似乎就可以工作(它是一个 P2P 内容分发模拟器,所以更多不同“内容”我介绍了模拟器必须处理的更多数据传输)。任何超过被模拟的不同内容数量的特定阈值的东西都会在平稳运行几分钟后导致突然的 SIGSEGV。我假设有一个内存泄漏最终变得太大并且把事情搞砸了,但是参数低于阈值的 valgrind 运行完美地终止了。但是,如果我尝试使用 valgrind 使用内容编号的临界值运行程序,

==5987== Invalid read of size 8
==5987==    at 0x40524E: Scheduler::advanceClock() (Scheduler.cpp:38)
==5987==    by 0x45BA73: TestRun::execute() (TestRun.cpp:73)
==5987==    by 0x45522B: main (CDSim.cpp:131)
==5987==  Address 0x2e63bc70 is 0 bytes inside a block of size 32 free'd
==5987==    at 0x4C2A4BC: operator delete(void*) (in /usr/lib/valgrind/vgpreload_memcheck-amd64-linux.so)
==5987==    by 0x405487: Scheduler::advanceClock() (Scheduler.cpp:69)
==5987==    by 0x45BA73: TestRun::execute() (TestRun.cpp:73)
==5987==    by 0x45522B: main (CDSim.cpp:131)
==5987==
==5987== Invalid read of size 4
==5987==    at 0x40584E: Request::getSimTime() const (Event.hpp:45)
==5987==    by 0x40525C: Scheduler::advanceClock() (Scheduler.cpp:38)
==5987==    by 0x45BA73: TestRun::execute() (TestRun.cpp:73)
==5987==    by 0x45522B: main (CDSim.cpp:131)
==5987==  Address 0x2e63bc78 is 8 bytes inside a block of size 32 free'd
==5987==    at 0x4C2A4BC: operator delete(void*) (in /usr/lib/valgrind/vgpreload_memcheck-amd64-linux.so)
==5987==    by 0x405487: Scheduler::advanceClock() (Scheduler.cpp:69)
==5987==    by 0x45BA73: TestRun::execute() (TestRun.cpp:73)
==5987==    by 0x45522B: main (CDSim.cpp:131)
==5987==

我知道在没有看到整个代码的情况下可能很难给出答案,但是是否有关于这里可能发生的事情的“高级”提示?我不明白为什么似乎正常工作的功能突然开始出现异常。有什么明显的我想念的吗?

先前 valgrind 日志中的犯罪行位于if (nextEvent->getSimTime() < this->getSimTime())以下块中:

bool Scheduler::advanceClock() {
  if (pendingEvents.size() == 0) {
    std::cerr << "WARNING: Scheduler::advanceClock() - Empty event queue before "
        "reaching the termination event" << std::endl;
    return false;
  }
  const Event* nextEvent = pendingEvents.top();
  // Check that the event is not scheduled in the past
  if (nextEvent->getSimTime() < this->getSimTime()) {
    std::cerr << "Scheduler::advanceClock() - Event scheduled in the past!" << 
        std::endl;
    std::cerr << "Simulation time: " << this->getSimTime()
        << ", event time: " << nextEvent->getSimTime()
        << std::endl;
    exit(ERR_EVENT_IN_THE_PAST);
  }
  // Update the clock with the current event time (>= previous time)
  this->setSimTime(nextEvent->getSimTime());
  ...

其中 pendingEvents 是 boost::heap::binomial_heap。

4

2 回答 2

1

我终于找到了问题所在。当事件完成并且需要从列表中删除时,我的代码如下所示:

...
// Data transfer completed, remove event from queue
// Notify the oracle, which will update the cache mapping and free resources
// in the topology
oracle->notifyCompletedFlow(nextEvent, this);
// Remove flow from top of the queue
pendingEvents.pop();
handleMap.erase(nextEvent);
delete nextEvent;
return true;

问题是oracle->notifyCompletedFlow()在调度程序上调用了一些方法来动态更新调度事件的优先级(例如,对网络中可用带宽的变化做出反应),因此pendingEvents.pop()在某些情况下我删除了队列的顶部我正在弹出一个不同的事件并将已删除的 nextEvent 留在其中。通过在调用 oracle 之前弹出队列,问题自行解决。

我很抱歉遗漏了一些可能会导致更快答案的代码,我会尝试从我的错误中吸取教训:) 感谢您为我指明正确的方向。

于 2012-06-27T12:25:42.380 回答
0

它可能与const Event* nextEvent = pendingEvents.top();Looks likependingEvents是一种堆栈。你可以试试这个:

  1. 仪器(意味着添加一些跟踪,就像输出到 std::cerr | 文件一样简单)分配和取消分配内存的代码(使用 malloc/new、free/delete 的地方);
  2. 作为调试工具,尝试对Event使用智能指针,它会在解引用(操作符->)时检查指针的有效性。
于 2012-06-26T19:31:16.843 回答