javascript - AWS 识别 x,y 公式

Question

我正在尝试使用 AWS rekognition 在照片中找到人鼻子的 x,y 坐标，我正在使用 javascript SDK 并将这些值作为图片大小的比率返回。这在文档中明确说明，我对此没有任何问题。

我所追求的是从整个图像的角度而不是边界框的角度找到鼻子“地标”的确切 x,y 的公式。下面是我的 rekognition 输出。

{ FaceDetails: 
   [ { BoundingBox: 
        { Width: 0.6399999856948853,
          Height: 0.47999998927116394,
          Left: 0.1644444465637207,
          Top: 0.17666666209697723 },
       Landmarks: 
        [ { Type: 'eyeLeft',
            X: 0.36238425970077515,
            Y: 0.3900916874408722 },
          { Type: 'eyeRight', X: 0.5580493807792664, Y: 0.362303763628006 },
          { Type: 'nose', X: 0.4164798855781555, Y: 0.4511926472187042 },
          { Type: 'mouthLeft',
            X: 0.42259901762008667,
            Y: 0.5591621994972229 },
          { Type: 'mouthRight',
            X: 0.5580134391784668,
            Y: 0.5394133925437927 } ],
       Pose: 
        { Roll: -9.781778335571289,
          Yaw: -20.029239654541016,
          Pitch: 10.893087387084961 },
       Quality: { Brightness: 59.32780456542969, Sharpness: 99.9980239868164 },
       Confidence: 99.99403381347656 } ] }

我有一个 2576x1932 的图像，是否有一些公式可以在这里应用来给我图片中鼻子的 x，y。目前它从边界框内给出鼻子的x，y（我认为）。我的数学技能真的达不到这一点。

从文档中：

边界框：

返回的顶部和左侧值是整体图像大小的比率。例如，如果输入图像为 700x200 像素，并且边界框的左上角坐标为 350x50 像素，则 API 返回左侧值 0.5 (350/700) 和顶部值 0.25 (50/200)。

地标：

从地标左上角开始的 x 坐标，表示为图像宽度的比率。例如，如果图像为 700x200，并且地标的 x 坐标为 350 像素，则此值为 0.5。

score 1 · Accepted Answer

使用识别数据中的边界框来索引或标记。我已经为面孔做了

#python
widtho = 717 #width of the given image
heighto = 562 #height of the given image
width = faceDetail['BoundingBox'].get('Width')
height = faceDetail['BoundingBox'].get('Height')
left = faceDetail['BoundingBox'].get('Left')
top = faceDetail['BoundingBox'].get('Top')
w = int(width * widtho)
h = int(height * heighto)
x = int(left * widtho)
y = int(top * heighto)
cv2.rectangle(imagere, (x, y), (x + w, y + h), (255, 0, 0), 2)

这将得到边界框..希望我提供了一些关于公式的线索

score 1 · Accepted Answer

Rekognition 返回的 X/Y 值只是图像宽度/高度的百分比。根据 Rekognition API 文档，地标位置相对于整个图像，而不是边界框。

因此，您所要做的就是将图像的宽度乘以地标的X值以获得该地标的X位置（然后将图像的高度乘以地标的Y位置以获得Y位置以像素为单位的地标）。

Rekognition 这样做的原因是，无论图像的像素大小如何，鼻子的位置（例如）都是相同的。在上面的示例中，鼻子位于：

 { Type: 'nose', X: 0.4164798855781555, Y: 0.4511926472187042 },

这仅仅意味着它从左边框开始在图像宽度的 41.6% 处，从上边框开始在图像高度的 45.1% 处。将这些百分比乘以您的实际宽度和高度以获得像素坐标。

请参阅： http ://docs.aws.amazon.com/rekognition/latest/dg/API_Landmark.html

javascript - AWS 识别 x,y 公式

2 回答 2

Related

Reference