尝试分析作为建筑图纸的 PDF 文件时,我收到以下错误:
{
"error": {
"code": "2018",
"innerError": {
"requestId": "7ffbbd94-fab5-4200-b32c-990d6029a1cc"
},
"message": "Content parsing error."
}
}
我正在使用表单识别器 API,PDF 文件上同时包含文本和绘图符号。我还尝试了标题中的不同内容类型(“multipart/form-data”、“application/pdf”),结果相同。如果我截取 PDF 文件(它是一页)并将其另存为图像,它会成功处理。
表单识别器是否支持这些类型的 PDF 文件?我想知道我是否遗漏了什么或者目前不支持建筑图纸。
编辑:我附上了几个我正在使用的示例绘图文件(混淆识别信息)。Material Legends 文件是我需要从中提取信息的主要文件。对于平面图文件,我只想提取 Key Notes 部分的信息。
进一步澄清我需要提取的数据:我需要计算检测到的关键术语/短语的实例。例如,我需要扫描一个文件以查看其中有多少次包含文本“Restroom”。我同意 Form Recognizer 将它看到的内容放在结果的 Tokens 部分。