我希望从包含 2 张发票的以下图像中提取键值对。
图片示例
我正在使用 AWS Textract 来实现这一点,但是我希望能够将键值对映射回发票。例如,“ Cornbread SVC ”应映射到帐单#1,“ 1 #1 CHKN PLATE ”应映射到帐单#2。
我认为的一种方法是对图像进行一些预处理,如果我们能找出答案。票据及其坐标然后根据尺寸裁剪图像。所以基本上图像上的“5”张钞票会产生“5”张钞票的坐标,然后根据不同的钞票尺寸拍摄原始图像并裁剪 5 次。然后将每个账单作为单独的图像发送到 AWS Textract。
但是,我一直无法找出一种方法来检测否。图像中的钞票及其边界坐标。
任何帮助,将不胜感激。我愿意使用任何其他 API 或方法来实现这一点。