1

我正在尝试使用 azure 提供的测试控制台(西欧)在 formrecognizer 预览中训练模型。但我收到错误代码 413 Payload Too Large。错误消息是:无法处理数据集。数据集大小超过大小限制 (4.00MB)。

我提供了一个指向 blob 容器的 SAS-Storage-Url。此 blob 容器包含 5 个 png 文件。每个大小在 2.7 到 3.1 MB 之间,内容类型为 application/png。

从文档中我知道文件大小必须小于 4 Mb。完整数据集(所有训练文件的总和)的大小是否限制为 4 MB?

4

2 回答 2

1

表单识别器 v1 支持总大小必须小于 4 兆字节 (MB) 的训练集。Form Recognizer v1 API 是同步 API,对处理时间有时间限制,因此有限制。Form Recognizer v2.0(预览版)是一个异步 API,支持对大型数据集进行训练。请使用 v2.0(预览版)API。

于 2019-05-28T17:00:39.900 回答
0

更多细节:尝试 V2 API 或更高版本。

除了缩小训练文档之外,不可能“解决”这个问题。手动缩小它们而不是使用代码的过程如下:

  • PDFEscape(有免费试用,优秀的工具)
    • 从页面导出所有图像
  • Irfanview - 批量操作,按百分比调整图像大小,保存为 PDF
  • PDFEscape 选择单个页面图像的所有 PDF 版本,右键单击 Windows 资源管理器和 PDFEscape-merge。必要时重新排序,然后保存新的 PDF
于 2020-02-25T03:40:53.247 回答