我想将图像的像素分类为“是街道”或“不是街道”。我有一些来自KITTI 数据集的训练数据,并且我看到 Caffe 有一个IMAGE_DATA
图层类型。标签以与输入图像大小相同的图像形式存在。
除了 Caffe,我解决这个问题的第一个想法是在应该分类的像素周围提供图像补丁(例如,顶部/左侧/右侧/底部 20 个像素,导致每个像素有 41×41=1681 个我想要分类的特征.
但是,如果我可以告诉 caffe 如何使用标签而不必手动创建这些图像补丁(并且图层类型IMAGE_DATA
似乎表明这是可能的)我更喜欢那样。
Caffe 可以直接对图像的像素进行分类吗?这样的 prototxt 网络定义会是什么样子?如何向 Caffe 提供有关标签的信息?
我猜输入层会是这样的
layers {
name: "data"
type: IMAGE_DATA
top: "data"
top: "label"
image_data_param {
source: "path/to/file_list.txt"
mean_file: "path/to/imagenet_mean.binaryproto"
batch_size: 4
crop_size: 41
mirror: false
new_height: 256
new_width: 256
}
}
但是,我不确定究竟是什么crop_size
意思。真的是居中吗?caffe 是如何处理角点像素的?new_height
有什么new_width
好处?