问题标签 [form-recognizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure-cognitive-services - 选择标记识别的 ETA?
选择标记识别是否有 ETA?也许我们可以加入预览?
谢谢,迈克
form-recognizer - 已使用无法在 MS Flow 中检测到的标签进行训练的表单识别器模型
我使用示例标签工具创建并训练了表单识别器模型。但是,我无法通过 MS Flow 的表单识别器获取模型。我能够通过表单识别器 API 获取模型。因此,模型存在但不能被 MS Flow 的表单识别器拉取。
您能否告诉我如何将这个已标记为被拉入 MS Flow 的表单识别器的模型?谢谢
azure - 如何在 TrainCustomModelAsync 表单识别器上定位本地路径
有人可以向我解释一下 TrainModelAsync 如何将 Windows 上的本地路径作为源文件访问。文件说:
该请求必须包含一个源参数,该参数可以是外部可访问的 Azure 存储 Blob 容器 Uri(最好是共享访问签名 Uri),也可以是本地安装驱动器中数据文件夹的有效路径。指定本地路径时,它们必须遵循 Linux/Unix 路径格式,并且是根植于输入挂载配置设置值的绝对路径,例如,如果 '' 配置设置值是 '/input',那么有效的源路径将是 '/输入/contosodataset”。所有要训练的数据都应该在源文件夹或它的子文件夹下。模型使用以下内容类型的文档进行训练 - 'application/pdf'、'image/jpeg'、'image/png'、'image/tiff'。其他类型的内容将被忽略。
- 例如,我在 C:\input\ 中有训练文件的有效格式是什么?
- 什么是输入挂载配置设置值?
这是我的代码:(如果我将“源”属性设置为 blob 存储,则此运行成功)
azure - Microsoft 表单识别器返回 401 错误
我正在尝试使用 Microsoft 表单识别器 API。我从 API 调用返回以下错误。请帮忙指教。
谢谢
azure-cognitive-services - 提高表格识别
我尝试使用表单识别器和标签工具分析发票。发票包含字段和表格数据。表中的所有数据都被 ocr 进程识别并且可读。不幸的是,这些表格并不总是被识别为表格。有时只有一半的数据被识别为表格,在某些情况下,没有任何东西被标记为表格。
获取表格数据的最佳方法是什么?
文档说: “应该自动检测表格数据,并将在最终输出的 JSON 文件中可用。但是,如果模型无法检测到所有表格数据,您也可以手动标记这些字段。标记中的每个单元格具有不同标签的表格。如果您的表格中的表格具有不同的行数,请确保您至少为一个表格标记了尽可能大的表格。”
这是不切实际的,并且会在几百个字段之上破坏字段计数器。有没有办法改善表格识别,也许通过修改 labels.json 和定义区域?
azure - Azure 表单识别器名称/值对
我目前正在使用 Azure 表单识别器并有一个问题。我在用
https://<>.cognitiveservices.azure.com/formrecognizer/v2.0-preview/layout/analyzeResults/2e0a2322-65bb-4fd2-a3bf-98f70b36641e
返回的 JSON 似乎正在使用基本的 OCR。我想知道它是否可能(很容易)
拿这个
但将其返回为
}
如果这不是我可以在天蓝色表单识别器中做的事情,那么不用担心。我只是想看看。
先感谢您!迈克尔
azure - Azure 表单识别器表未正确提取
我正在使用https://docs.microsoft.com/en-us/azure/cognitive-services/form-recognizer/quickstarts/curl-train-extract在不使用标签的情况下构建训练模型。
我遇到的问题是当我通过模型运行文件(该文件用于训练模型)时,它没有拾取“表格”部分。我的意思是,没有“表格”节点。
据我所见,它应该能够将其构建为 JSON 的一部分,但它将其分解为超细粒度的 OCR,例如
我错过了一面旗帜还是什么?
先感谢您。
azure - Azure 表单识别器未按预期运行
我遇到了 FormRecognizer 没有表现出我所看到的那样的问题。这是困境
我有一张发票,当通过 https://{endpoint}/formrecognizer/v2.0/layout/analyze 运行时,它识别出发票中的表格并使用“表格”节点生成正确的 JSON。这是其中一部分的示例
当我训练一个没有标签文件的模型时 https://{endpoint}/formrecognizer/v2.0/custom/models 它不会生成一个空的“表”节点,但它会生成(令牌)。这是上面没有“表格”的示例
我不确定这在哪里表现得不理想,但任何见解都将不胜感激!
ocr - 示例标签工具 OCR 文本检测问题
我对带有手写文本的 Azure 表单识别器的 OCR 有疑问。
在 Azure 的示例标签工具中标记之前对手写 PDF 文件运行 OCR 时,OCR 经常会错误地检测到文本。使用其他表单分析和提取技术,通常会提供一个选项来输入本应检测到的文本,以从根本上“纠正”OCR。为了在示例标签工具(Docker 映像)中训练 Azure 表单识别器,我看不到一种方法可以覆盖 OCR 文本并输入正确的文本。
有没有一种方法可以让我自己输入 OCR 未能检测到或检测不正确的文本?
例如,下图是 Azure 的 Sample Labeling Tool 中的 OCR 拾取的: OCR detection sample image。
有没有办法纠正这个结果并告诉表单识别器文本应该是:“Bridget Sims, MD”?