1

我正在使用 ABBYY OCR SDK 将文本图像转换为 Python 中的 xml。我的目标是保留文本的格式,所以我一直在尝试使用xml:writeFormatting如下参数:

ocr_engine = CloudOCR(application_id='', password='')
jpg = open('pic16.JPG', 'rb')
file = {jpg.name: jpg}
result = ocr_engine.process_and_download(file, 

exportFormat='xml&xml:writeFormatting=true', language='English')
    result

for format, content in result.items():
with open('converted.xml', 'wb') as output_file:
output_file.write(content.read())
output_file.close()

并弹出以下错误:

HTTPError:450 客户端错误:未知格式 xmlwriteFormatting=true 用于 url:http ://cloud-eu.ocrsdk.com/processImage?exportFormat=xmlwriteFormatting%3Dtrue&language=English

4

1 回答 1

1

通过示例,我猜这不是 ABBYY OCR SDK。这是 ABBYY Cloud SDK(具有相似用途的完全不同的产品)。ABBYY SDK 使用您的计算机 CPU 能力来 OCR 文本,Cloud OCR SDK 使用 ABBYY 在线服务来做同样的事情。

xml:writeFormatting 应该是“yes”或“no”,而不是“true”或“false”。

于 2019-11-05T05:05:26.740 回答