问题标签 [faster-rcnn]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Tensorflow Object Detection API Untrained Faster-RCNN 模型
我目前正在尝试使用带有 python 的 Tensorflow 对象检测 API 构建一个对象检测器。我已按照此处和此处faster-rcnn model
发布的说明设法重新培训
但是,据我所知,培训时间相当长。我知道我使用的是迁移学习,而不是从头开始训练更快的 rcnn 模型。我想知道是否有办法下载未经训练的 fast-rcnn 模型并从头开始(端到端)进行训练,而不必求助于迁移学习。
我熟悉迁移学习的优点,但是,我的对象检测器旨在快速训练、范围狭窄,并且训练的是字母而不是对象,所以我不认为迁移学习是最好的途径。
我相信解决这个问题将与pipeline.config
文件有关,特别是在这部分:
但我不确定如何指定没有fine_tune_checkpoint
neural-network - 减少神经网络特征图的空间维度
给定一个维度的特征图MxNxC
(例如,来自 Faster-RCNN 的预测感兴趣区域的输出),如何将空间维度减少到1x1xC
? 即,将特征图减少为总结区域特征的向量之类的量?
我知道1x1
卷积,但这似乎与减少通道的情况有关。Average 和 Max Pooling 也很常用,但是这些方法似乎更适合不太极端的二次采样情况。
显然,人们可以简单地计算空间维度上的平均值,但这似乎相当粗糙。
computer-vision - Mask RCNN 中使用什么样的图像进行训练(只有 8 位或 16 位图像或任何深度)?
我对用于训练目的的 MaskRCNN 图像有一点疑问。MRCNN 是否只使用 8 位图像进行训练?如果它拍摄任何 16 位或 32 位图像,它将如何通过培训帮助我们?通常可视化发生在 8 位图像上。如果它处理 16 位,它将如何帮助分类和映射,我有一个难题。
tensorflow - 有人能给我解释一下 Multibox 损失函数吗?
我找到了 SSD Multibox-loss 函数的一些表达式,如下所示:
multibox_loss = confidence_loss + alpha * location_loss
有人可以解释这些术语的解释是什么吗?
python-3.x - 实现掩码 rcnn 时出错(OverflowError: Python int too large to convert to C ssize_t)
我正在尝试为我的项目实施 Mask R-CNN。我一直在尝试从图像中检测摩托车。我已经使用 supervise.ly https://supervise.ly对图像进行了注释。在代码进行各种更改后,错误文件“skimage/draw/_draw.pyx”,第 217 行,在 skimage.draw._draw._polygon OverflowError: Python int too large to convert to C ssize_t
显示
注释如下:
我被这些图像困住了。要么我必须重新开始并手动注释许多图像。或者我可以监督使用,这在注释中非常有用。我猜罪魁祸首是数据集类。
我希望模型能够获取图像并开始训练这些图像。谢谢您的帮助。
python - 具有图像尺寸的预测时的 Faster-RCNN Pytorch 问题
我正在根据本教程使用 PyTorch 微调 Faster-RCNN:https ://pytorch.org/tutorials/intermediate/torchvision_tutorial.html
结果非常好,但只有在向模型提供单个张量时才能进行预测。例如:
但是当我一次输入多个张量时,我得到了这个错误:
编辑
在提供 3D 张量列表时工作(IMO 这种行为有点奇怪,我不明白为什么它不适用于 4D 张量):
python - 减少fasterRCNN数组输出的大小,使用Gluon、python
我正在使用更快的 rcnn 模型来运行一些对象检测。我使用的包装器是胶子,代码如下:
我的问题是,是否可以减小 net(x) 返回的数组的大小,从而有效地加快计算速度?
问题是该模型将 box_ids、scores 和 bboxes 生成为具有 80000 个元素的数组 - 只有前 10 个元素有用,其余的得分为 -1。我稍后尝试使用 asnumpy() 将这些数组转换为 numpy 数组,但是,mxnet 使用异步引擎,并且该函数必须等待计算结束才能执行。80000 个元素的计算需要更长的时间(5 秒 +),因此我试图减小数组大小(SSD 模型输出大约 6000 个元素并且速度更快)。
如果您有其他关于如何使 .asnumpy() 更快的解决方案,这些也是受欢迎的 - 基本上,一张图像的传递需要 5 秒,这似乎不合理,所以我正在寻找将它减少到 ~0.2 秒(这似乎更合适吧?)
谢谢!
object-detection - 用于地面实况跟踪的多目标跟踪 (MOT) 基准数据集格式
我正在尝试在2DMOT 挑战赛 2015行业中使用的标准数据集上评估我的对象检测+跟踪的性能。我已下载数据集,但无法理解标记的地面实况数据中的数据字段。
我已经理解了数据集的前六列,但对于其余四列却无法理解。以下是目录 <\2DMOT2015\train\ETH-Bahnhof\gt> 中的示例数据:
如果您知道这一点,请告诉我?
python - 使用 tensorflow-distributed 实现 mask-r-cnn
我正在训练一个基于 tensorflow 和 keras的mask-r-cnn 网络。我正在寻找一种减少训练时间的方法,所以我想用 tensorflow-distributed 来实现它。
我一直在使用 mask-r-cnn 一段时间,但似乎我正在尝试做的事情需要我修改 mask-r-cnn 的源代码,这超出了我目前的技能。
所以,我的问题是,有人做过,或者类似的事情吗?有没有可能,或者我误解了tensorflow-distributed的使用。
提前谢谢。
object-detection - 我应该为验证图像创建 json 注释吗?
我正在尝试为我自己的数据集实现掩码 rcnn,但找不到有关包含用于验证的图像的 val 文件夹的注释的任何信息。我使用 Via 2.0.8 为我的训练集创建了 json 注释,这很有意义。但是如果验证图像是稍后要测试的图像,那么为什么要为它们进行注释。如果没有 val 文件夹中的 json 文件,我将无法训练我的模块。
我试图将用于训练图像的 json 注释复制到验证文件夹中。我认为它是工作人员,但这意味着我在训练和验证中应该有相同数量的图像,并且名称也相同。