问题标签 [semantic-segmentation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 当我没有足够的内存来加载所有训练数据时如何在 Keras 中训练
我想在 Keras 中训练我的模型,因此尝试将图像加载为 numpy 数组并调整它们的大小,但它失败了,因为我没有足够的内存。
当我通过 img/255 标准化图像时出现 MemoryError
我的任务是语义分割。我有两个文件夹。一个用于输入图像,另一个用于所需的输出图像。相应的图像具有相同的名称。
Keras 中有有用的 API 吗?
machine-learning - 多类分割的广义骰子损失:keras 实现
我刚刚在 keras 中实现了广义骰子损失(骰子损失的多类版本),如ref中所述:
(我的目标定义为:(batch_size,image_dim1,image_dim2,image_dim3,nb_of_classes))
但一定有什么不对劲。我正在处理必须为 4 个类(1 个背景类和 3 个对象类,我有一个不平衡的数据集)分割的 3D 图像。第一件奇怪的事情:虽然我的训练损失和准确性在训练期间有所提高(并且收敛速度非常快),但我的验证损失/准确性是恒定的低谷时期(见图)。其次,在对测试数据进行预测时,只预测背景类:我得到一个恒定的体积。
我使用了完全相同的数据和脚本,但使用了分类交叉熵损失并获得了合理的结果(对象类被分段)。这意味着我的实现有问题。知道它可能是什么吗?
另外,我相信 keras 社区有一个通用的 dice loss 实现会很有用,因为它似乎被用于大多数最近的语义分割任务(至少在医学图像社区)。
PS:对我来说权重是如何定义的似乎很奇怪;我得到大约 10^-10 的值。还有其他人尝试过实现这一点吗?我还测试了没有权重的函数,但遇到了同样的问题。
caffe - 如何保存segnet的分割结果
在文件test_segmentation_camvid
中,我应该如何定义IMAGE_FILE
和保存预测结果?
python - tensorflow 是否支持计算语义分割标签子集的交叉熵损失?
我正在使用 tensorflow 进行语义分割任务。我有 5 个班级,我这样计算损失:
logits
有形状(batch_size,picture_height,picture_width,5)
annotation
有形状(batch_size,picture_height,picture_width,1)
现在我只想计算前4类的损失,忽略第5类。我怎样才能做到这一点?
例如,如果我只想计算前 4 个类的 Cohen 的 kappa,我可以labels
在 sklearn.metrics.cohen_kappa_score 中设置参数:
python - 多类语义分割 - 输出激活?
我正在尝试在 Keras 中进行多类语义分割。现在我正在使用 Unet 架构,并且有一个与此类似的模型(但更深):
我的数据集由 680k 个图像(512、512、3)和 680k 个相应的标签组成。标签是 one-hot 编码的并且具有形状 (512, 512, 3) 即 3 个类别。
然后我的问题是:这是设置我的模型的正确方法吗?还是我应该使用“sigmoid”激活和“binary_crossentropy”?
semantic-segmentation - 用于语义分割的 PASCAL VOC 中的地面实况像素标签
我正在试验 FCN(全卷积网络),并试图重现原始论文(Long 等人 CVPR'15)中报告的结果。
在那篇论文中,作者报告了 PASCAL VOC 数据集的结果。下载并解压 2012 年的 train-val 数据集(http://host.robots.ox.ac.uk/pascal/VOC/voc2012/VOCtrainval_11-May-2012.tar )后,我注意到其中有 2913 个 png 文件SegmentationClass和SegmentationObject子目录中相同数量的文件。
这些 png 文件中的像素值似乎是 32 的倍数(例如 0、128、192、224...),不在 0 到 20 之间。我只是想知道它们之间的对应关系是什么像素的像素值和地面实况标签。还是我在看错误的文件?
python - 用于对象检测和分割的 Mask R-CNN [训练自定义数据集]
我正在研究“Mask R-CNN
用于对象检测和分割”。所以我已经阅读了Mask R-CNN
关于对象检测的原始研究论文,并且我发现很少有实现Mask R-CNN
,这里和这里(由 Facebook AI 研究团队称为检测器)。但他们都使用 coco 数据集进行测试。
但是对于使用具有大量图像的自定义数据集进行上述实现的训练,我有点困惑,并且对于每个图像,都有一个掩码图像子集用于标记相应图像中的对象。
因此,如果有人可以为此任务发布有用的资源或代码示例,我很高兴。
注意:我的数据集具有以下结构,
它由大量图像组成,对于每个图像,都有单独的图像文件将对象突出显示为黑色图像中的白色补丁。
这是一个示例图像,它是蒙版:
图片;
面具;
c++ - 使用扩张卷积在语义分割中进行上采样
我正在研究一个使用扩张(atrous)卷积网络进行语义分割的项目。我正在使用 caffe 框架。我的输入数据和标签大小是:
我正在使用带有损失的 softmax 进行评估。
网络工作正常,直到 Softmax 层要求两个输入 blob 应该给出相同的尺寸。通常在这个网络中,数据的大小会变小,我需要在将其馈送到 Softmax 层之前调整它的大小。
在将数据馈送到 softmax 层之前,我需要一些想法如何调整数据大小。我知道我可以将反卷积与双线性插值一起使用并进行一些裁剪,但我错过了如何进行的想法。
任何帮助将不胜感激。
日志的最后一部分如下:
如果你们需要 train.prototxt,请告诉我。
谢谢!!