我正在开发一个 Ruby on Rails 应用程序,我想在其中检测图像中物理对象(瓶子和食品包)的数量。
我刚刚探索了 Google Vision API ( https://cloud.google.com/vision/ ) 来检查这是否可行。我上传了一张照片,里面有一些冷饮瓶,得到了以下回复。
{
"responses" : [
{
"labelAnnotations" : [
{
"mid" : "\/m\/01jwgf",
"score" : 0.77698487,
"description" : "product"
},
{
"mid" : "\/m\/0271t",
"score" : 0.72027034,
"description" : "drink"
},
{
"mid" : "\/m\/02jnhm",
"score" : 0.51373237,
"description" : "tin can"
}
]
}
]
}
我在这里担心的是,它没有给出图像中可用的冷饮瓶的数量,而是返回照片中可用的对象类型。
这在 Google Vision API 或任何其他可用的解决方案中是否可行?
任何帮助将非常感激。