python - 在保存为图像的 pdf 中抓取文章

问问题 2021-08-08T15:25:52.150

40 次

我有一个这样的文件，我想在第 4 页获取名为“公共公告”的文章的内容。我需要图像或文本格式的内容。也只是其中一篇，可能还有多篇类似的文章。就像在左侧一样，您有两篇与背靠背招标相关的文章。

我尝试过使用 pytesseract，但它会逐行读取整个图像并将多个内容混合在一起，例如第 4 页上的“运输公司 Hyaat Regency”将两篇文章混合在一起。

这是我使用的代码：

import pytesseract
from pytesseract import Output
import cv2
img = cv2.imread('Main2021_8_3257737.pdf')
d = pytesseract.image_to_data(img, output_type=Output.DICT)

我也使用过image_to_string功能，但这没有帮助。关于如何从上述示例 pdf 中找到框并从这些框中提取图像或文本的任何建议？如果有帮助，我可以提供某些关键字来找出我需要的相关框。或者有没有更好的方法从样本 pdf 中提取文章？

我也尝试过 pdfplumber，它没有帮助，因为它需要我无法提供的盒子开始和结束位置。有没有办法以某种方式为我的文章获取这些坐标？

同样，菲茨也没有帮助，因为它似乎将整个页面视为一个图像而不是将其分解。

python - 在保存为图像的 pdf 中抓取文章

0 回答 0

Related

Reference