microsoft-cognitive - 表单识别器的内容解析错误

Question

尝试分析作为建筑图纸的 PDF 文件时，我收到以下错误：

{
    "error": {
        "code": "2018",
        "innerError": {
            "requestId": "7ffbbd94-fab5-4200-b32c-990d6029a1cc"
        },
        "message": "Content parsing error."
    }
}

我正在使用表单识别器 API，PDF 文件上同时包含文本和绘图符号。我还尝试了标题中的不同内容类型（“multipart/form-data”、“application/pdf”），结果相同。如果我截取 PDF 文件（它是一页）并将其另存为图像，它会成功处理。

表单识别器是否支持这些类型的 PDF 文件？我想知道我是否遗漏了什么或者目前不支持建筑图纸。

编辑：我附上了几个我正在使用的示例绘图文件（混淆识别信息）。Material Legends 文件是我需要从中提取信息的主要文件。对于平面图文件，我只想提取 Key Notes 部分的信息。

进一步澄清我需要提取的数据：我需要计算检测到的关键术语/短语的实例。例如，我需要扫描一个文件以查看其中有多少次包含文本“Restroom”。我同意 Form Recognizer 将它看到的内容放在结果的 Tokens 部分。

材料图例示例

平面图示例

score 0 · Accepted Answer

考虑使用OCR 表单工具或FOTT 网站训练模型来自 OCR 表单工具 github 站点：“要通过完整的标签训练分析场景，您需要一组至少六个相同类型的表单。您将标记五个用于训练模型的表格和用于测试模型的表格。”

该模型提供了一些场景分析支持，以从表单和 json 映射中提取焦点。

如果您还没有这样做，请尝试通过他们的Form Recognizer API v2进行测试

score 0 · Accepted Answer

表单识别器专注于包含文本和值的表单（采购订单、税表）。它将从文档中提取键/值对（地址、名称、ID）。你想从建筑图纸中得到什么类型的信息？如果您可以展示典型的架构图（公共领域中没有私人信息的类似图）以及您的预期结果，表单识别器团队可以对此进行调查。

希望这可以帮助。谢谢-xin-MSFT

microsoft-cognitive - 表单识别器的内容解析错误

2 回答 2

Related

Reference