问题标签 [mscoco]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
opencv - 使用 opencv2 和 numpy 使用其边界框旋转图像以 45 度角产生更差的框
我有一些代码,主要取自这篇文章底部链接的各种来源,用 Python 编写,它采用形状图像[height, width]
和一些[x_min, y_min, x_max, y_max]
格式的边界框,都是 numpy 数组,并逆时针旋转图像及其边界框. 由于旋转后边界框变得更像“菱形”,即不对齐轴,所以我执行一些计算以使其轴对齐。这段代码的目的是通过使用旋转数据(水平或垂直翻转很常见)在训练对象检测神经网络时执行数据增强。似乎其他角度的翻转对于图像分类很常见,没有边界框,但是当有框时,如何翻转框以及图像的资源相对稀疏/小众。
似乎当我输入一个 45 度的角度时,我得到了一些不太“紧”的边界框,因为四个角不是一个很好的注释,而原始的一个接近完美。
下图是 MS COCO 2014 对象检测数据集(训练图像)中的第一张图像,以及它的第一个边界框标注。我的代码如下:
不太好的边界框看起来像:
我正在尝试确定这是我的代码错误,还是这是预期的行为?似乎这个问题在 pi/2 弧度(90 度)的整数倍处不太明显,但我想在任何旋转角度实现紧密的边界框。任何见解都值得赞赏。
来源:[打开 CV2 文档] https://docs.opencv.org/3.4/da/d54/group__imgproc__transform.html#gafbbc470ce83812914a70abfb604f4326
[数据增强讨论] https://blog.paperspace.com/data-augmentation-for-object-detection-rotation-and-shearing/
[围绕二维任意点旋转的数学] https://math.stackexchange.com/questions/2093314/rotation-matrix-of-rotation-around-a-point-other-than-the-origin
object-detection - 关于 MS COCO 数据集评估!图片尺寸!(关于 COCO 数据集的问题。)
我是一名正在学习物体检测的学生!
我有一个关于 COCO 数据集的问题。
我目前正在试验COCO数据集,性能评估指标中有APs APm APL。
AP 32X32 或更小,APm 32x32 到 96×96,APL 96×96 看起来像这样。
这是特定图像尺寸的标准吗?或者它是否意味着绝对像素大小?如果它意味着绝对像素大小,APs APm APL 中包含的实例是否会因每个输入大小而不同?
谢谢你。
tensorflow - 如何使用 COCOAPI/PyCOCOTools 评估 Tensorflow Lite 模型的性能
我使用TensorFlow 对象检测 API在自定义数据集上训练模型。tensorflow 对象检测 API 还允许在测试集上评估经过训练的模型,并以COCO eval 格式给出结果。可以在此处看到评估的示例输出:
TensorFlow Object Detection API 的评估输出报告 MSCOCO 指标
在这张图中,有mAP@0.5 IoU和mAP@0.75 IoU等结果。它还报告 AR(平均召回率)。它还报告了一个整体的mAP。
训练完我的模型后,我将模型转换为 Tensorflow Lite,并在模型上应用了训练后量化。现在我想在我的测试集上为我的 tflite 模型计算类似的指标。
有人可以指导我如何去做吗?我试图了解如何使用COCOAPI来做到这一点,但到目前为止我不确定如何。
一个相关的问题是,有人可以告诉我在哪里可以找到COCOAPI的文档吗?我到处搜索,我似乎找不到它。
谢谢
deep-learning - 使用 MSCOCO 数据集进行图像字幕的 TFX
我能够将图像转换为 tfrecords,但不知道如何将它与字幕结合起来。实际上,我想用图像和标题的配对数据生成 tfrecords。我试图为此创建 2d tfrecords 但不起作用。在这里,我正在尝试使用 TFX 为图像字幕创建 MLOPS 管道。如果有人对创建 MLOPS 管道有任何其他想法,请发表评论。
python - maskrcnn_benchmark中COCODataset类的图像类型
因此,我尝试使用maskrcnn_benchmark来可视化我的测试结果。由于图像类型不同,我无法输出图像。因为我从具有 shape的数据集中获得了具有数据类型的图像。image, target, idx = dataset[idx]
torch.Tensor
maskrcnn_benchmark.data.datasets.coco.COCODataset
(3, 600, 1200)
原始图像dataset.get_img_info(idx)
来自
{'id': 0, 'width': 2048, 'height': 1024, 'file_name': 'frankfurt_000000_000294_leftImg8bit_foggy_beta_0.02.png', 'seg_file_name': 'frankfurt_000000_000294_gtFine_instanceIds.png'}
问题是torch.Tensor
图像值在 -122.7717 到 152.0199 之间变化。我想知道如何将其转换为普通图像类型,以便我可以将预测叠加在图像之上并可视化测试结果。1024 x 2048
在将预测覆盖在图像顶部之前,我还需要将图像重塑为原始大小吗?
谢谢。
pytorch - 使用 MS-COCO 格式作为 PyTorch MASKRCNN 的输入
我正在尝试使用 MS-COCO 格式的自定义数据集训练 MaskRCNN 图像分割模型。
我正在尝试使用多边形蒙版作为输入,但无法使其适合我的模型的格式。
我的数据如下所示:
{“id”:145010,“image_id”:101953,“category_id”:1040,
“段”:[[140.0,352.5,131.0,351.5,118.0,344.5,101.500000000001,323.0,94.5,303.0,86.5,86.5,292.0 22.0, 179.5, 53.99999999999999, 170.5, 76.0, 158.5, 88.5, 129.0, 100.5, 111.0, 152.0, 70.5, 175.0, 65.5, 217.0, 64.5, 272.0, 48.5, 296.0, 56.49999999999999, 320.5, 82.0, 350.5, 135.0, 374.5, 163.0, 382.5, 190.0, 381.5, 205.99999999999997, 376.5, 217.0, 371.0, 221.5, 330.0, 229.50000000000003, 312.5, 240.0, 310.5, 291.0, 302.5, 310.0, 288.0, 326.5, 259.0, 337.5, 208.0, 339.5, 171.0, 349.5] ],
“区域”:73578.0,
"bbox": [11.5, 11.5, 341.0, 371.0],
“拥挤”:0}
我在这张图片中有一个对象,因此有一个用于分割和 bbox 的项目。分割值是多边形的像素,因此对于不同的对象有不同的大小。
谁能帮我解决这个问题?
mscoco - MS COCO 数据集中的图像来源是什么?
MS COCO 数据集中的图像来源是什么?它是为了通过某些人创建数据集而手动拍摄的吗?或爬网?或一些图像托管网站?
有人知道吗?谢谢
dataset - 如何从 MSCOCO 数据集中获取人员类别和分割?
我只想从 COCO 数据集中下载人物类和二进制分割。我该怎么做?
dataset - 了解 Detectron2 COCO Evaluator
我正在使用Detectron2的COCOEvaluator评估Cityscapes数据集。
我想知道Detectron2中实现的COCO评估指标是否考虑了每个类的实例数,即mAP是否实际上是加权mAP。
免责声明: 我已经在谷歌上搜索了有关 COCO mAP 指标的高级算法细节,但没有找到任何关于 mAP 是否加权的参考。还查看了 COCO API 和 Detectron2 mAP 实现代码,但它很复杂。
python - 关键点类子集的 COCO API 评估
我正在使用 python coco API 对关键点估计进行评估。我有两个文件,一个基本事实 json 和一个结果 json。
我的目标是评估所有 KP 类的 KP 估计性能。
例如,对于“人”类别,我想要这样的东西:
但是,结果是所有关键点类的平均值。
我发现唯一可能有帮助的是这个 SO 问题:COCO API evaluation for subset of classes。但问题是建议的解决方案有利于输出不同对象类别的评估,而不是它们的关键点。
任何建议,将不胜感激。