我正在尝试使用 google vision api 对我的图像执行 OCR。API 调用的 Json 输出返回带有边界框信息的已识别单词。
有人可以告诉我如何使用这个边界框信息对我的图像进行布局分析吗?
如果有一个库将其作为输入并返回句子而不是单词?
{
"description": "Ingredients:",
"boundingPoly": {
"vertices": [
{
"x": 14,
"y": 87
},
{
"x": 53,
"y": 87
},
{
"x": 53,
"y": 98
},
{
"x": 14,
"y": 98
}
]
}
},
{
"description": "Chicken",
"boundingPoly": {
"vertices": [
{
"x": 55,
"y": 87
},
{
"x": 77,
"y": 87
},
{
"x": 77,
"y": 98
},
{
"x": 55,
"y": 98
}
]
}
},
例如,在上面的 json 中,“Ingredients:”“Chicken”这两个词在同一行。是否有图书馆可以开箱即用地为我提供这些信息?
用于 OCR源图像的图像