问题标签 [azure-form-recognizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
azure - 如何为 Azure 认知服务实时提取文本?
我正在寻找构建一个应用程序来针对文档执行各种基于文本的认知服务功能。
但是,我似乎在首先从文档中获取文本的第一个障碍上失败了。
我知道 OCR 和表单识别器都对此执行变体(分别为“文本识别”和“文本提取”) - 但对于标准文档(例如 Word / Excel / PDF),这感觉就像是大量的矫枉过正。
认知搜索包括“文档破解”过程——但我需要实时处理文档,所以不想处理 Azure 中的索引。
Azure 中是否有更简单的“获取文本”功能(无论是在认知服务中还是在其他方面)我可以使用它?
我真的不想做的是,必须为每种不同的文件类型(例如 PDF / DOCX / TXT / PNG / MSG)编写我自己的函数,并确定我需要为每个文件使用哪个 API。
先感谢您!
azure-sdk-python - Azure Forms Recognizer - 保存输出结果 SDK Python
当我使用Forms Recognizer的 API 时,它返回了一个 JSON 文件。现在,我将表单识别器与 SDK 和 Python 结合使用,它返回的数据类型似乎是库 azure.ai.formrecognizer 中的特定数据类型。
有谁知道如何将从Form Recognizer SDK Python 获取的数据保存在 JSON 文件中,就像从Form Recognzier API收到的文件一样?
azure - 天蓝色表单识别器服务 - docker-compose 问题
我正在尝试运行天蓝色表单识别器服务(发票用例)。它在我的带有 docker-compose 的 Windows 笔记本电脑上运行良好。当我尝试在 EKS 或 ubuntu 20.04 VM(docker compose 具有相同的配置)上运行它时,我收到以下超时错误。
.net - 为什么 Form Recognizer SDK v3 找不到任何要训练的 OCR 文档?
我正在尝试使用示例代码使用 v3 preview构建表单识别器自定义模型:
sas 令牌用于包含 20 个 pdf 文件的 Blob 容器。当我运行时,我得到了错误
状态:200(正常)错误代码:InvalidRequest
附加信息:AdditionInformation:InvalidRequest:无效请求。
详细信息:ModelBuildError:无法构建模型:找不到任何 OCR 文件进行训练。
生的:
{ "code": "InvalidRequest", "message": "Invalid request.", "details": [ { "code": "ModelBuildError", "message": "Could not build the model: Can\u0027t find any OCR培训文件。” } ] }
SAS 令牌有读、写、列出等权限,所以我不知道为什么客户端找不到任何要训练的文档。有任何想法吗?
azure - 如何优化 Azure 表单识别响应时间?
我在 Azures 的表单识别器中实现了一个自定义模型。在性能测试中,使用 PDF 和 JPEG 文件进行文本提取,漏洞处理正在 Azure 中执行,大约需要 4.5 秒来响应请求。
我的问题是,有办法改善这些响应时间吗?
这是我的测试代码:
azure - azure 表单识别器服务 - openshift 容器平台的问题
我正在尝试在 OpenShift Container Platform 4.9.8 上部署 Azure 认知服务表单识别器 ID 容器。我正在部署容器,它开始成功运行,但几秒钟后它抛出“超时:未能在 1 秒内连接服务“0.0.0.0:50151””错误。是否有任何兼容性问题或者我忽略了什么?
PS:Azure Cognitive 服务没有订阅或访问问题。
有关 Azure 认知服务的信息,请参阅 http://aka.ms/cognitive-services
有关 Azure 认知服务的容器支持的信息,请参阅http://aka.ms/cognitive-services-containers
使用基于文件的对象存储。
托管环境:生产
内容根路径:/app 现在
监听:http: //0.0.0.0 :5050应用程序已启动。按 Ctrl+C 关闭。
超时:1s内连接服务“0.0.0.0:50151”失败
超时:1s内连接服务“0.0.0.0:50151”失败
超时:1s内连接服务“0.0.0.0:50151”失败
c# - Azure 表单识别器性能缓慢
我们正在研究将文档 OCR 包含在我们的产品中的可能性,并且更愿意使用 Azure 表单识别器。但是,当使用自定义或组合模型进行文档 OCR 时,我们会遇到性能非常缓慢的问题 - 通常超过 10 秒。这是正常的吗?如果没有,我们如何提高性能。这是在本地区域的 S0 层上,我们使用的是 Azure.AI.FormRecognizer v3.1.1 .NET 客户端:
subscript - 表单识别器 - 检测表格中的上标和下标
我计划使用表单识别器来检测和转换 pdf 文档中的表格数据。我已经训练并使用了自定义模型,因为并非所有表格都能自动正确识别。我使用 Azure Function 和 FormRecognizerClient 来获取数据并将其转换为所需的格式。它有效,但问题是这些表有时包含带有下标和上标的数学公式中的单位。
OCR 无法识别功率,因此 f.ex 10^6 被识别为 106,其他一些标志也无法正确识别。有没有办法以某种方式改善这一点?也许我可以并行使用另一个 Microsoft 功能来检测这样的事情,或者解决这个问题的另一个工具?
sql - SQL 图像数据到 Azure Logic App for Forms Analyzer
我们有一个带有图像记录的 SQL 数据库,我们需要通过 Azure 表单识别器对其进行处理,然后使用结果更新数据库。
目前我们可以将图像数据导出到文件中,将它们复制到 Azure Blob 存储中,然后将它们作为文件导入进行处理,然后根据文件名更新 SQL 记录。它的工作但混乱。
从 SQL 中提取图像内容的格式与作为原始文件内容输入 Azure AI Formrecognizer 的格式非常相似。
关于我可以将原始 SQL 图像数据操作/包装成一种格式的任何建议,该格式将模拟提供给图像识别器的“获取 Blob 内容”的内容?这将使该过程更加高效和稳定。
示例“从 Get Row 返回的 SQL 数据”
示例“获取 blob 内容”
一些文本替换为 xxxx,其余内容已被删除,但相同