azure - 了解 Azure OCR 自定义模型的工作原理

问问题 2021-08-18T08:36:55.797

28 次

0

我们尝试过的事情。我们目前在 PDF 上训练一些包含多个表和键值对的示例文件。

当我们以 100% 的准确率很好地训练模型并解析一个以前没有训练过的新文件时，我们对新文件中的数据的置信率很低。有些属性甚至没有映射。
当我们有不同数据的类似格式文件时，模型的准确率不是 100%。我们得到了更好的置信率，但仍然不像我们预期的那样处于 90 年代。置信率在 20 -80% 之间。
然后，我们认为我们标记数据的方式阻碍了获得更好的置信度分数。我们将他的标签重命名为 table1、table2 等，希望在从模型中读取数据时获得更好的准确性。我们仍然收到较低的置信度分数。

有几点我想了解。

当我们标记数据时，模型 AI 将根据 PDF 中数据的位置或实际内容本身进行未来扫描。

例如，如果我在文档中标记单词“Microsoft”……它会在 PDF 的所有页面中查找单词“Microsoft”，还是会在基于已训练文件的位置中查找它。

我们可以做些什么来提高未来被扫描文件的置信度分数？
我们拥有的表格并不总是在相同的坐标中，它们会根据我们拥有的数据而有所不同。我们发现很难选择整个表格，因为有几列会被跳过。我们标记了表中的每个值。如果行数多于我在模型中标记的行数。我能从这些额外的行中获取数据吗？

0 回答 0