我们有数百万个简单的 txt 文档,其中包含我们从 pdf 中提取的各种数据结构,文本逐行打印,因此所有格式都丢失了(因为当我们尝试使用工具来维护格式时,它们只是把它搞砸了)。我们需要从这个文本文档中提取字段和值,但是这些文件的结构有一些变化(这里和那里的新行,一些纸上的噪音,所以拼写不正确)。
我在想我们会创建某种模板结构,其中包含有关关键字和值的坐标(行、字/字数)的信息,并使用这些信息来定位和收集关键字值,例如使用各种算法来弥补不一致的格式。
有没有这样做的标准方法,任何可能有帮助的链接?还有其他想法吗?