我们尝试过的事情。我们目前在 PDF 上训练一些包含多个表和键值对的示例文件。
当我们以 100% 的准确率很好地训练模型并解析一个以前没有训练过的新文件时,我们对新文件中的数据的置信率很低。有些属性甚至没有映射。
当我们有不同数据的类似格式文件时,模型的准确率不是 100%。我们得到了更好的置信率,但仍然不像我们预期的那样处于 90 年代。置信率在 20 -80% 之间。
然后,我们认为我们标记数据的方式阻碍了获得更好的置信度分数。我们将他的标签重命名为 table1、table2 等,希望在从模型中读取数据时获得更好的准确性。我们仍然收到较低的置信度分数。
有几点我想了解。
- 当我们标记数据时,模型 AI 将根据 PDF 中数据的位置或实际内容本身进行未来扫描。
例如,如果我在文档中标记单词“Microsoft”……它会在 PDF 的所有页面中查找单词“Microsoft”,还是会在基于已训练文件的位置中查找它。
我们可以做些什么来提高未来被扫描文件的置信度分数?
我们拥有的表格并不总是在相同的坐标中,它们会根据我们拥有的数据而有所不同。我们发现很难选择整个表格,因为有几列会被跳过。我们标记了表中的每个值。如果行数多于我在模型中标记的行数。我能从这些额外的行中获取数据吗?