4

我有一个使用 OpenMP 并行化 for 循环的程序。在循环内部,线程将写入共享变量,所以我需要同步它们。但是,我有时会遇到段错误或双重释放或损坏错误。有谁知道会发生什么?谢谢并恭祝安康!这是代码:

void KNNClassifier::classify_various_k(int dim, double *feature, int label, int *ks, double * errors, int nb_ks, int k_max) {   
  ANNpoint      queryPt = 0;    
  ANNidxArray   nnIdx = 0;      
  ANNdistArray  dists = 0;     

  queryPt = feature;      
  nnIdx = new ANNidx[k_max];                
  dists = new ANNdist[k_max];               

  if(strcmp(_search_neighbors, "brutal") == 0) {// search  
    _search_struct->annkSearch(queryPt, k_max,  nnIdx, dists, _eps);  
  }else if(strcmp(_search_neighbors, "kdtree") == 0) {  
    _search_struct->annkSearch(queryPt, k_max,  nnIdx, dists, _eps);  // double free or corruption
  }  

  for (int j = 0; j < nb_ks; j++)  
  {  
    scalar_t result = 0.0;  
    for (int i = 0; i < ks[j]; i++) {          
        result+=_labels[ nnIdx[i] ];  // Segmentation fault
    }  
    if (result*label<0)  
    {  
    #pragma omp critical  
    {  
      errors[j]++;  
    }  
    }  

  }  

  delete [] nnIdx;  
  delete [] dists;  

}

      void KNNClassifier::tune_complexity(int nb_examples, int dim, double **features, int *labels, int fold, char *method, int nb_examples_test, double **features_test, int *labels_test) {    
          int nb_try = (_k_max - _k_min) / scalar_t(_k_step);    
          scalar_t *error_validation = new scalar_t [nb_try];    
          int *ks = new int [nb_try];    

          for(int i=0; i < nb_try; i ++){    
            ks[i] = _k_min + _k_step * i;    
          }    

          if (strcmp(method, "ct")==0)                                                                                                                     
          {    

            train(nb_examples, dim, features, labels );// train once for all nb of nbs in ks                                                                                                

            for(int i=0; i < nb_try; i ++){    
              if (ks[i] > nb_examples){nb_try=i; break;}    
              error_validation[i] = 0;    
            }    

            int i = 0;    
      #pragma omp parallel shared(nb_examples_test, error_validation,features_test, labels_test, nb_try, ks) private(i)    
            {    
      #pragma omp for schedule(dynamic) nowait    
              for (i=0; i < nb_examples_test; i++)         
              {    
                classify_various_k(dim, features_test[i], labels_test[i], ks, error_validation, nb_try, ks[nb_try - 1]); // where error occurs    
              }    
            }    
            for (i=0; i < nb_try; i++)    
            {    
              error_validation[i]/=nb_examples_test;    
            }    
          }

          ......
     }

更新:

正如我在上一篇文章中一样double free or corruption,代码在单线程下运行良好,但在多线程下会出现运行时错误。错误会不时变化。如果我运行它两次,一个将是段错误,另一个将是双重释放或损坏。

4

1 回答 1

5

让我们看一下您的分段故障线:

result+=_labels[ nnIdx[i] ];

result是本地的——好的。

nnIdx是本地的——也可以。

i是本地的 - 仍然可以。

_labels... 它是什么?

是全球性的吗?您是否定义了对它的访问权限#pragma shared

前者也一样:

_search_struct->annkSearch(queryPt, k_max,  nnIdx, dists, _eps);

似乎我们在这里遇到了一个不容易解决的问题——_search_struct 不是线程安全的——可能其中的值是由线程一次修改的。您必须为每个线程提供一个专用的 _search_struct,可能是通过在分类_various_k 中分配它。

然而,真正的坏消息是 ANN 可能完全不可读:

该库分配少量存储空间,由程序生命周期内构建的所有搜索结构共享。因为数据是共享的,所以即使删除了所有单独的结构,它也不会被释放。

如上所示,并行数据修改总是存在问题,因为库本身有一些共享数据——因此它本身不是线程安全的:/。

于 2010-02-02T07:02:13.323 回答