我想问一个关于pdf的想法。
所以我想从pdf中获取一些数据,但只是指定的数据。是否可以选择从pdf中获取的内容?
例如这张图片,所以你可以看到我想从pdf中输出哪些数据: pic http://shrani.si/f/1k/AA/Ph2cBYG/informativna-ponudba-gre.png
谢谢
我想问一个关于pdf的想法。
所以我想从pdf中获取一些数据,但只是指定的数据。是否可以选择从pdf中获取的内容?
例如这张图片,所以你可以看到我想从pdf中输出哪些数据: pic http://shrani.si/f/1k/AA/Ph2cBYG/informativna-ponudba-gre.png
谢谢
这个问题涉及两个主要过程:OCR 和 Data Capture(或解析)
OCR 代表光学字符识别。此过程将图像转换为文本。如果您的 PDF 是纯图像 PDF(没有文本层,例如扫描、传真、光栅化等),则必须使用此类软件。如果您的 PDF 已经包含电子文本数据,您“可以”跳过此步骤。
用于智能数据定位和提取的数据捕获标准,例如在所有其他文本中查找特定字段。有专门的软件包和/或解析过程(请参阅我以前的帖子)。
如果您的所有文档都具有包含您的文本的相同“区域”,您可以裁剪图像,然后将较小的区域传递给 OCR,这反过来将简化您的文本提取逻辑(因为要处理的文本会更少)。
伊利亚