python - 用于对象检测和分割的 Mask R-CNN [训练自定义数据集]

Question

我正在研究“Mask R-CNN用于对象检测和分割”。所以我已经阅读了Mask R-CNN关于对象检测的原始研究论文，并且我发现很少有实现Mask R-CNN，这里和这里（由 Facebook AI 研究团队称为检测器）。但他们都使用 coco 数据集进行测试。

但是对于使用具有大量图像的自定义数据集进行上述实现的训练，我有点困惑，并且对于每个图像，都有一个掩码图像子集用于标记相应图像中的对象。

因此，如果有人可以为此任务发布有用的资源或代码示例，我很高兴。

注意：我的数据集具有以下结构，

它由大量图像组成，对于每个图像，都有单独的图像文件将对象突出显示为黑色图像中的白色补丁。

这是一个示例图像，它是蒙版：

图片;

面具;

score 11 · Accepted Answer

我已经训练了https://github.com/matterport/Mask_RCNN的实例分割模型以在我的数据集上运行。

我的假设是您已完成所有基本设置，并且模型已经使用默认数据集（在 repo 中提供）运行，现在您希望它为自定义数据集运行。

以下是步骤

您需要拥有所有注释。
所有这些都需要转换为 VGG 多边形模式（是的，我的意思是多边形，即使您需要绑定框）。我在这个答案的末尾添加了一个示例 VGG 多边形格式。
您需要将自定义数据集划分为 train、test 和 val
默认情况下，使用via_region_data.json单个数据集文件夹内的文件名查看注释。例如，对于训练图像，它会查看train\via_region_data.json. 如果需要，您也可以更改它。
在 Samples 文件夹中，您可以找到 Balloon、Nucleus、Shapes 等文件夹。复制其中一个文件夹。最好是气球。我们现在将尝试为我们的自定义数据集修改这个新文件夹。
在复制的文件夹中，您将有一个.py文件（对于气球，它将是 balloon.py），更改以下变量
- ROOT_DIR: 克隆项目的绝对路径
- DEFAULT_LOGS_DIR：这个文件夹会变大，所以相应地改变这个路径（如果你在低磁盘存储虚拟机中运行你的代码）。它也会存储.h5文件。它将在日志文件夹中创建带有时间戳的子文件夹。
- .h5每个时期的文件大约为 200 - 300 MB。但是猜猜这个日志目录与 Tensorboard 兼容。--logdir您可以在运行 tensorboard 时将带时间戳的子文件夹作为参数传递。
这个.py文件也有两个类——一个后缀为 as 的Config类，另一个后缀为 as 的类Dataset。
在 Config 类中覆盖所需的东西，如
- NAME：您的项目的名称。
- NUM_CLASSES：它应该比您的标签类别多一个，因为背景也被视为一个标签
- DETECTION_MIN_CONFIDENCE: 默认 0.9
- STEPS_PER_EPOCHETC
在 Dataset 类中覆盖以下方法。所有这些功能都已经很好地注释了，因此您可以按照注释根据您的需要进行覆盖。
- load_(name_of_the_sample_project) 例如 load_balloon
- load_mask（请参阅答案的最后一个示例）
- 图像参考
训练功能（在数据集类之外）：如果您必须更改时期数或学习率等

您现在可以直接从终端运行它

python samples\your_folder_name\your_python_file_name.py train --dataset="location_of_custom_dataset" --weights=coco

.py有关上述行的命令行参数的完整信息，您可以在此文件顶部将其作为注释查看。

这些是我能回忆起来的事情，我想在我记得的时候添加更多的步骤。如果您卡在任何特定步骤，也许您可以告诉我，我将详细说明该特定步骤。

VGG 多边形模式

宽度和高度是可选的

[{
    "filename": "000dfce9-f14c-4a25-89b6-226316f557f3.jpeg",
    "regions": {
        "0": {
            "region_attributes": {
                "object_name": "Cat"
            },
            "shape_attributes": {
                "all_points_x": [75.30864197530865, 80.0925925925926, 80.0925925925926, 75.30864197530865],
                "all_points_y": [11.672189112257607, 11.672189112257607, 17.72093488703078, 17.72093488703078],
                "name": "polygon"
            }
        },
        "1": {
            "region_attributes": {
                "object_name": "Cat"
            },
            "shape_attributes": {
                "all_points_x": [80.40123456790124, 84.64506172839506, 84.64506172839506, 80.40123456790124],
                "all_points_y": [8.114103362391036, 8.114103362391036, 12.205901974737595, 12.205901974737595],
                "name": "polygon"
            }
        }
    },
    "width": 504,
    "height": 495
}]

示例 load_mask 函数

def load_mask(self, image_id):
    """Generate instance masks for an image.
    Returns:
    masks: A bool array of shape [height, width, instance count] with
        one mask per instance.
    class_ids: a 1D array of class IDs of the instance masks.
    """
    # If not your dataset image, delegate to parent class.
    image_info = self.image_info[image_id]
    if image_info["source"] != "name_of_your_project":   //change your project name
        return super(self.__class__, self).load_mask(image_id)

    # Convert polygons to a bitmap mask of shape
    # [height, width, instance_count]
    info = self.image_info[image_id]
    mask = np.zeros([info["height"], info["width"], len(info["polygons"])], dtype=np.uint8)
    class_id =  np.zeros([mask.shape[-1]], dtype=np.int32)

    for i, p in enumerate(info["polygons"]):
        # Get indexes of pixels inside the polygon and set them to 1
        rr, cc = skimage.draw.polygon(p['all_points_y'], p['all_points_x'])
        # print(rr.shape, cc.shape, i, np.ones([mask.shape[-1]], dtype=np.int32).shape, info['classes'][i])

        class_id[i] = self.class_dict[info['classes'][i]]
        mask[rr, cc, i] = 1


    # Return mask, and array of class IDs of each instance. Since we have
    # one class ID only, we return an array of 1s
    return mask.astype(np.bool), class_id

score 0 · Accepted Answer

所以首先，你需要提取每个图像的边界框。该任务必须手动完成，或者您可以使用OpenCV等工具

编辑打开的简历

同样对于白色的部分，您必须使用您选择的任何工具来做最好的技术，我会用 OpenCV 来做。代码可能非常具体，因为可以使用不同的技术来处理它。没有其他方法，因为您没有注释，只有掩码。

现在你已经有了格式（x、y、宽度、高度）的图像和框。

Detectron 具有 JSON 文件格式，例如： https ://pastebin.com/ewaaC5Bm

现在，您可以使用该images值创建一个类似的 JSON，因为您已经获得了该信息。

由于我们没有任何细分（在您的示例中），让我们澄清annotations正在采用的参数：

category_id：这是类别的ID。您可以在pastebin中看到我显示的唯一类别有id = 32. 您需要根据数据集添加更多类别。
bbox：这就是我们上面谈到的那个盒子：[x, y, width, height]

现在对于iscrowd，我们显然可以采取两种方法area：this或this。segmentation

这样分割将不会被考虑（或将被考虑但被忽略）。

祝你好运。

score -1 · Accepted Answer

对于图像分割任务，有两种方法可以为训练代码提供掩码图像。

整个图像的蒙版图像。
图像中每个对象的掩码图像。

在 Mask R-CNN 中，你必须遵循 2。

我们的 Mac OS X 应用程序 RectLabel 可以导出两个蒙版图像。

颜色表对应于对象类 id 的索引颜色图像。
每个对象的灰度图像，由 0：背景和 255：前景组成。

我们提供了 python 代码示例，说明如何加载掩码图像并设置为掩码 R-CNN 代码的 TFRecord 文件。

带有掩码图像的 COCO JSON 文件到 TFRecord

https://github.com/ryouchinsa/Rectlabel-support/blob/master/rectlabel_create_coco_tf_record.py

python object_detection/dataset_tools/rectlabel_create_coco_tf_record.py \
--train_image_dir="${TRAIN_IMAGE_DIR}" \
--val_image_dir="${VAL_IMAGE_DIR}" \
--train_annotations_file="${TRAIN_ANNOTATIONS_FILE}" \
--val_annotations_file="${VAL_ANNOTATIONS_FILE}" \
--output_dir="${OUTPUT_DIR}" \
--include_masks

PASCAL VOC XML 文件到带有掩码图像的 TFRecord

https://github.com/ryouchinsa/Rectlabel-support/blob/master/rectlabel_create_pascal_tf_record.py

python object_detection/dataset_tools/rectlabel_create_pascal_tf_record.py \
--images_dir="${IMAGES_DIR}" \
--label_map_path="${LABEL_MAP_PATH}" \
--output_path="${OUTPUT_PATH}" \
--include_masks

我们希望这会有所帮助。

python - 用于对象检测和分割的 Mask R-CNN [训练自定义数据集]

3 回答 3

Related

Reference