我想使用 Textract OCR 服务从 pdf 文件中读取文本。我有一个问题,因为我想在本地做,没有 S3 桶。我对图像文件进行了测试,效果很好,但不适用于 PDF 文件。
这是我收到错误的代码:
response = textract.start_document_text_detection(DocumentLocation="sample2.pdf")
错误:
Invalid type for parameter DocumentLocation, value: sample2.pdf, type: <class 'str'>, valid types: <class 'dict'>
代码2:
response = textract.start_document_text_detection(DocumentLocation={"name":"sample2.pdf"})
错误:
Unknown parameter in DocumentLocation: "name", must be one of: S3Object
代码3:
response = textract.start_document_text_detection(Document={'Bytes': "sample2.pdf"})
错误:
Unknown parameter in input: "Document", must be one of: DocumentLocation, ClientRequestToken, JobTag, NotificationChannel, OutputConfig
我该怎么办,有没有办法让 Textract 为没有 s3 的 PDF 文档工作?