0

嗨伙计,

目前我正在尝试构建一个应该在移动设备上运行的近实时对象检测模型。由于我是计算机视觉这一特定领域的新手,我将不胜感激关于我当前进展的每一个建议,以及关于我可以采取哪些不同方式来实现目标的反馈。

目标

目标是检测图像中的垃圾并将其分类为以下处理方法之一(3个目标类):

  • 黄色麻袋/罐头(德语)
  • 玻璃

除此之外,模型应该是轻量级的,以便可以在移动设备上有效地运行它。

数据集

我正在使用垃圾网数据集,其中包含分布在以下类别中的 2527 张图像:玻璃、纸张、塑料、垃圾、纸板、金属。值得注意的是,每张图片只有一个项目。每个图像的背景也是相同的(纯白色)。

方法论

坦率地说,我正在关注 Sentdex 关于 Mac'n'cheese 检测的 YouTube 教程和这篇关于枪支检测的中等帖子。因此,我使用 Google Colab 作为我的环境。此外,我正在尝试重新训练预训练模型(ssd_mobilenet_v2_coco_2018_03_29)。通过使用 tensorflow API(model_main.py 和 export_inference_graph.py)提供的方法来训练模型和导出推理图。我正在为这个模型使用来自 tensorflow的示例配置。

到目前为止我的步骤

  1. 我已经设置了我的 Google Colab 环境,类似于我之前提到的 Medium 帖子中的 Colab Notebook。
  2. 我将数据分别按 3/4 和 1/4 分成训练和测试数据。
  3. 我使用流行的 labelImg 工具标记了我的数据,以便每个对象都有一个边界框。
  4. 我删除了对象填充整个空间或超出图像范围的每个图像,因为边界框没有那么大的意义。
  5. 我创建了label_map,csvtfrecord文件。
  6. 我玩弄了盒子预测器和特征提取器initial_learning_ratel2_regularizer > weight速率,设置use_dropout=true并增加了batch_size=32.

我目前的结果

我构建的大多数模型的 AP/AR 都很差,损失有点高,而且往往会过拟合。此外,该模型一次只能在新图像中检测一个对象(可能是因为数据集?)。

这是我的张量板上的一些屏幕截图。这些是在大约 12k 步之后制作的。我认为这也是过度拟合开始显现的关键,因为 AP 突然上升并且预测图像的准确度在 90-100% 左右。

标量:

预测图像:

我身边的问题

  1. 每个图像中只有一个对象是否有问题?在视频流上运行模型时,这可能会导致问题吗?
  2. 这些图像是否足以构建准确的模型?
  3. 有没有人在这方面有经验,可以就如何微调预训练模型给我建议?
  4. 我还在网络摄像头的视频流上运行模型,但所有模型都倾向于对整个屏幕进行分类。因此,模型似乎正在检测一个对象,但在整个屏幕上绘制了边界框。这可能与数据集的性质/模型质量差有关吗?

这是一篇很长的帖子,所以提前感谢您抽出时间阅读本文。我希望我能够明确我的目标,并为你们提供足够的细节来跟踪我目前的进展。

我感谢每一条反馈!

此致

扬尼克

预训练的 ssd_mobilenet_v2_coco_2018_03_29 模型的当前调整配置:

model {
  ssd {
    num_classes: 3
    box_coder {
      faster_rcnn_box_coder {
        y_scale: 10.0
        x_scale: 10.0
        height_scale: 5.0
        width_scale: 5.0
      }
    }
    matcher {
      argmax_matcher {
        matched_threshold: 0.5
        unmatched_threshold: 0.5
        ignore_thresholds: false
        negatives_lower_than_unmatched: true
        force_match_for_each_row: true
      }
    }
    similarity_calculator {
      iou_similarity {
      }
    }
    anchor_generator {
      ssd_anchor_generator {
        num_layers: 6
        min_scale: 0.2
        max_scale: 0.95
        aspect_ratios: 1.0
        aspect_ratios: 2.0
        aspect_ratios: 0.5
        aspect_ratios: 3.0
        aspect_ratios: 0.3333
      }
    }
    image_resizer {
      fixed_shape_resizer {
        height: 300
        width: 300
      }
    }
    box_predictor {
      convolutional_box_predictor {
        min_depth: 0
        max_depth: 0
        num_layers_before_predictor: 0
        #use_dropout: false
        use_dropout: true
        dropout_keep_probability: 0.8
        kernel_size: 1
        box_code_size: 4
        apply_sigmoid_to_scores: false
        conv_hyperparams {
          activation: RELU_6,
          regularizer {
            l2_regularizer {
              #weight: 0.00004
              weight: 0.001
            }
          }
          initializer {
            truncated_normal_initializer {
              stddev: 0.03
              mean: 0.0
            }
          }
          batch_norm {
            train: true,
            scale: true,
            center: true,
            decay: 0.9997,
            epsilon: 0.001,
          }
        }
      }
    }
    feature_extractor {
      type: 'ssd_mobilenet_v2'
      min_depth: 16
      depth_multiplier: 1.0
      conv_hyperparams {
        activation: RELU_6,
        regularizer {
          l2_regularizer {
            #weight: 0.00004
            weight: 0.001
          }
        }
        initializer {
          truncated_normal_initializer {
            stddev: 0.03
            mean: 0.0
          }
        }
        batch_norm {
          train: true,
          scale: true,
          center: true,
          decay: 0.9997,
          epsilon: 0.001,
        }
      }
    }
    loss {
      classification_loss {
        weighted_sigmoid {
        }
      }
      localization_loss {
        weighted_smooth_l1 {
        }
      }
      hard_example_miner {
        num_hard_examples: 3000
        iou_threshold: 0.99
        loss_type: CLASSIFICATION
        max_negatives_per_positive: 3
        min_negatives_per_image: 3
      }
      classification_weight: 1.0
      localization_weight: 1.0
    }
    normalize_loss_by_num_matches: true
    post_processing {
      batch_non_max_suppression {
        score_threshold: 1e-8
        iou_threshold: 0.6
        max_detections_per_class: 1
        max_total_detections: 1
      }
      score_converter: SIGMOID
    }
  }
}

train_config: {
  batch_size: 32
  optimizer {
    rms_prop_optimizer: {
      learning_rate: {
        exponential_decay_learning_rate {
          initial_learning_rate: 0.01
          decay_steps: 800720
          decay_factor: 0.95
        }
      }
      momentum_optimizer_value: 0.9
      decay: 0.9
      epsilon: 1.0
    }
  }
  fine_tune_checkpoint: "PATH"
  fine_tune_checkpoint_type:  "detection"
  # Note: The below line limits the training process to 200K steps, which we
  # empirically found to be sufficient enough to train the pets dataset. This
  # effectively bypasses the learning rate schedule (the learning rate will
  # never decay). Remove the below line to train indefinitely.
  num_steps: 200000
  data_augmentation_options {
    random_horizontal_flip {
    }
  }
  data_augmentation_options {
    ssd_random_crop {
    }
  }
}

train_input_reader: {
  tf_record_input_reader {
    input_path:"PATH"
  }
  label_map_path: "PATH"
}

eval_config: {
  num_examples: 197
  # Note: The below line limits the evaluation process to 10 evaluations.
  # Remove the below line to evaluate indefinitely.
  #max_evals: 10
  num_visualizations: 20
}

eval_input_reader: {
  tf_record_input_reader {
    input_path: "PATH"
  }
  label_map_path: "PATH"
  shuffle: false
  num_readers: 1
}

4

0 回答 0