0

我正在使用 VisDrone 数据集来训练 MobileNet-YOLOV3。该数据集包含不同大小的图像,即 960 x 540 P、1920 x 1080 P 等,以及每个图像的注释文件。但是当我训练 YOLO 模型时,它会将所有图像的大小调整为 416 x 416 P,这会导致在训练和测试期间丢失一些小对象。它还有一个问题,当调整大小时,注释可能是错误的,因为调整大小的图像的边界框必须不同。

所以我的问题是如何同时调整或裁剪这些图像以及相关注释?我对每个图像都有 .txt 和 .xml 注释文件。

另一种解决方案是裁剪每个图像并将其转换为新的 2 到 4 个图像,并根据旧注释相应地创建新注释。可以从一张图像中裁剪 4 幅图像,但是否可以根据裁剪区域将一个原始注释文件转换为新的 4 个注释文件?

4

1 回答 1

0

我在调整 Pascal VOC 数据集时遇到了同样的问题。我使用了这个 git repo: https ://github.com/italojs/resize_dataset_pascalvoc ,它运行良好。

还有另一个 Python 库:https ://pypi.org/project/pascal-voc-tools/ 它不仅仅是调整大小,您还可以进行不同的图像处理和更新注释文件。

于 2020-01-17T01:04:56.887 回答