0

我正在使用 Microsoft 在文档中提供的表单识别器和电源技能代码 AnalyzeFormV2 来创建自定义技能来索引 pdf 内容。我使用标签工具使用自定义标签训练数据。pdf 中的一些数据是数字的,我在标签工具中选择类型为“数字”。训练后,表单识别器将数字字段返回为:

        "TotalCredit": {
                        "type": "number",
                        "text": "350.00",
                        "page": 1,
                        "boundingBox": [
                            7.365,
                            5.755,
                            7.705,
                            5.755,
                            7.705,
                            5.855,
                            7.365,
                            5.855
                        ],
                        "confidence": 0.799
                    }

使用 azure power 技能的 AnalyzeForm API 返回如下字段:

"TotalCredit": null

它返回所有其他正确的字符串字段。

难道是异能技能代码的BUG?该代码用于recognized[v] = field.value将值分配给映射的标签。这个 field.value 来自一些“form_recognizer_client”库。所以我不知道如何将值转换为所需的格式。对此有任何想法/帮助吗?

4

2 回答 2

2

这是一个错误,该行应该更新为

recognized[v] =  field.value or field.value_data.text
于 2021-09-01T07:05:12.090 回答
1

有时表单识别器无法识别数字文本。这就是为什么它将值显示为null。我在电源技能代码中添加field.value_data.text并更改了它。float这对我有用。

if field.value_type == 'string':
   val = field.value 
elif field.value_type == 'float':
   text = field.value_data.text
   val = text.replace(',','')
   val = float(val)
于 2021-09-01T07:46:53.270 回答