3

我使用 ABBYY 的 OCR SDK 转换图像:

CSafePtr<IFRDocument> frDocument = ...;
frDocument->AddImageFile( "C:\\test\\input.tif" );
frDocument->Process( 0 );
frDocument->Export( "C:\\test\\output.rtf", FEF_RTF, 0  );

但现在我还需要获取 char 边界框和置信度。我可以从 Tesseract 获得它们,所以我认为 ABBYY 的 SDK 也可以。

如何获得边界框和置信度?

4

1 回答 1

4

我最终找到了方法,你需要使用IPlainText::GetCharacterData().

PlainText 对象的GetCharacterData 方法 该方法将文本中所有字符的信息作为一组数组返回:字符所在的页码、字符矩形的坐标和字符的置信度。

例子:

CSafePtr<IPlainText> plainText;
frDocument->get_PlainText(&plainText);
SAFEARRAY *confidences, *pageNumbers, *leftBorders, *topBorders, *rightBorders, *bottomBorders, *isSuspicious;
plainText->GetCharacterData(&pageNumbers, &leftBorders, &topBorders, &rightBorders, &bottomBorders, &confidences, &isSuspicious);
于 2015-03-05T07:33:52.160 回答