问题标签 [azure-form-recognizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 读取 azure 表单识别器的 pdf 文件时出现问题
我对使用 Azure 非常陌生。我正在尝试使用 Azure Form Recognizer 内置模型从 pdf 中提取数据。为此,我从 Microsoft 文档中获取了 python 的代码并尝试在 jupyter notebook 中实现。pdf 位于我的本地计算机中,位于我的 .ipynb 文件所在的同一目录中。但问题是这行代码没有执行。这是指定pdf文件的正确方法还是我做错了什么。请帮忙。提前感谢:)
azure-cognitive-services - 表单识别器不处理请求
在过去的几个小时表单识别器分析 https://my_ResourceName.cognitiveservices.azure.com/formrecognizer/v2.0-preview/custom/models/my_modelId/analyzeresults/my_referenceId
{ “状态”:“未开始”,“createdDateTime”:“2021-06-14T21:00:38Z”,“lastUpdatedDateTime”:“2021-06-14T21:00:39Z”}
有人有类似的经历吗?我知道通常需要一些时间来处理表格,但现在所有处理表格的尝试都失败了,没有任何错误。使用邮递员检查两个帖子以分析并获得分析结果。这曾经可以工作几个月没有问题,直到今天!
form-recognizer - Azure FormRecognizer:如何在 Azure.AI.FormRecognizer.Models 中使用 RecognizedForm.FormType
我正在使用 Azure 表单识别器。我创建了自己的模型并在表单上对其进行了训练。我在一个表格上对其进行了测试并打印form.FormType
了它只返回custom:<MyModelId>
。代码如下:
根据 Microsoft Doc,FormType 是模型识别提交表单的表单类型。然而,它实际上似乎只返回了模型。
我的问题是,有没有办法在训练我的模型来命名表单类型时,FormType
一旦它被识别,我可以将其与属性一起返回?
form-recognizer - 表单识别器支持的文档(图像和 pdf 除外)
我能够使用 Microsoft 表单识别器处理 Pdf 和图像发票文档。当我尝试将发票作为 Microsoft-Word 或 excel 文档处理时,它会引发“不支持的文档类型”错误。
根据官方文档,支持的文件格式为 JPEG、PNG、PDF 和 TIFF。除了提到的格式之外,还有其他方法可以处理 excel 或 word 格式的文档吗?
谢谢。
forms - 表单识别器标签未加载
屏幕右侧的我的标签/标签栏不起作用。它一直在加载。有只是微调。当我单击添加表标签时,它只是为了创建,但在创建后我无法维护它。有谁知道可能导致问题的原因?
form-recognizer - 表单识别器在单个模型下组合多个自定义模型的限制是什么
我无法找到在单个模型下可以组合多少表单识别器自定义模型的正确参考?现在有什么限制。
非常感谢。
azure - Azure 表单识别器的准确性较低,需要更多时间
我真的需要一些关于天蓝色表单识别器的建议。我正在开发用户将上传身份证图像的应用程序(格式可以是 jpeg、jpg、pdf)。我必须通过映射提取信息。为此,我使用了表单识别器。但问题是对于不良图像的准确性较低,有时会收集一些垃圾,并且处理一张图像的时间也是 45 秒。
所以我想使用 azure ocr,我使用分类器代码,然后使用 azure ocr。现在我必须映射 json 文件。
我的输出将是这样的:
我的问题是,我走错路了吗?或正确的。如果我走错了路,我应该遵循什么?还有我可以在表单识别器之前使用的任何 AZURE 分类器吗?azure 中是否有任何自动 json 映射服务?
您能否提出您的建议,我应该怎么做才能提高准确性并减少时间/?
我应该转向 OCR 吗?还是坚持使用表单识别器?还是应该使用 python 构建自定义模型?
azure - 了解 Azure OCR 自定义模型的工作原理
我们尝试过的事情。我们目前在 PDF 上训练一些包含多个表和键值对的示例文件。
当我们以 100% 的准确率很好地训练模型并解析一个以前没有训练过的新文件时,我们对新文件中的数据的置信率很低。有些属性甚至没有映射。
当我们有不同数据的类似格式文件时,模型的准确率不是 100%。我们得到了更好的置信率,但仍然不像我们预期的那样处于 90 年代。置信率在 20 -80% 之间。
然后,我们认为我们标记数据的方式阻碍了获得更好的置信度分数。我们将他的标签重命名为 table1、table2 等,希望在从模型中读取数据时获得更好的准确性。我们仍然收到较低的置信度分数。
有几点我想了解。
- 当我们标记数据时,模型 AI 将根据 PDF 中数据的位置或实际内容本身进行未来扫描。
例如,如果我在文档中标记单词“Microsoft”……它会在 PDF 的所有页面中查找单词“Microsoft”,还是会在基于已训练文件的位置中查找它。
我们可以做些什么来提高未来被扫描文件的置信度分数?
我们拥有的表格并不总是在相同的坐标中,它们会根据我们拥有的数据而有所不同。我们发现很难选择整个表格,因为有几列会被跳过。我们标记了表中的每个值。如果行数多于我在模型中标记的行数。我能从这些额外的行中获取数据吗?