我计划使用表单识别器来检测和转换 pdf 文档中的表格数据。我已经训练并使用了自定义模型,因为并非所有表格都能自动正确识别。我使用 Azure Function 和 FormRecognizerClient 来获取数据并将其转换为所需的格式。它有效,但问题是这些表有时包含带有下标和上标的数学公式中的单位。
OCR 无法识别功率,因此 f.ex 10^6 被识别为 106,其他一些标志也无法正确识别。有没有办法以某种方式改善这一点?也许我可以并行使用另一个 Microsoft 功能来检测这样的事情,或者解决这个问题的另一个工具?