php - 从 PDF 获取数据到 php/html/javascript

Question

我想问一个关于pdf的想法。

所以我想从pdf中获取一些数据，但只是指定的数据。是否可以选择从pdf中获取的内容？

例如这张图片，所以你可以看到我想从pdf中输出哪些数据： pic http://shrani.si/f/1k/AA/Ph2cBYG/informativna-ponudba-gre.png

谢谢

score 0 · Accepted Answer

这个问题涉及两个主要过程：OCR 和 Data Capture（或解析）

OCR 代表光学字符识别。此过程将图像转换为文本。如果您的 PDF 是纯图像 PDF（没有文本层，例如扫描、传真、光栅化等），则必须使用此类软件。如果您的 PDF 已经包含电子文本数据，您“可以”跳过此步骤。

用于智能数据定位和提取的数据捕获标准，例如在所有其他文本中查找特定字段。有专门的软件包和/或解析过程（请参阅我以前的帖子）。

如果您的所有文档都具有包含您的文本的相同“区域”，您可以裁剪图像，然后将较小的区域传递给 OCR，这反过来将简化您的文本提取逻辑（因为要处理的文本会更少）。

伊利亚

1 回答 1