我正在使用 VisDrone 数据集来训练 MobileNet-YOLOV3。该数据集包含不同大小的图像,即 960 x 540 P、1920 x 1080 P 等,以及每个图像的注释文件。但是当我训练 YOLO 模型时,它会将所有图像的大小调整为 416 x 416 P,这会导致在训练和测试期间丢失一些小对象。它还有一个问题,当调整大小时,注释可能是错误的,因为调整大小的图像的边界框必须不同。
所以我的问题是如何同时调整或裁剪这些图像以及相关注释?我对每个图像都有 .txt 和 .xml 注释文件。
另一种解决方案是裁剪每个图像并将其转换为新的 2 到 4 个图像,并根据旧注释相应地创建新注释。可以从一张图像中裁剪 4 幅图像,但是否可以根据裁剪区域将一个原始注释文件转换为新的 4 个注释文件?