我有一个这样的文件,我想在第 4 页获取名为“公共公告”的文章的内容。我需要图像或文本格式的内容。也只是其中一篇,可能还有多篇类似的文章。就像在左侧一样,您有两篇与背靠背招标相关的文章。
我尝试过使用 pytesseract,但它会逐行读取整个图像并将多个内容混合在一起,例如第 4 页上的“运输公司 Hyaat Regency”将两篇文章混合在一起。
这是我使用的代码:
import pytesseract
from pytesseract import Output
import cv2
img = cv2.imread('Main2021_8_3257737.pdf')
d = pytesseract.image_to_data(img, output_type=Output.DICT)
我也使用过image_to_string
功能,但这没有帮助。关于如何从上述示例 pdf 中找到框并从这些框中提取图像或文本的任何建议?如果有帮助,我可以提供某些关键字来找出我需要的相关框。或者有没有更好的方法从样本 pdf 中提取文章?
我也尝试过 pdfplumber,它没有帮助,因为它需要我无法提供的盒子开始和结束位置。有没有办法以某种方式为我的文章获取这些坐标?
同样,菲茨也没有帮助,因为它似乎将整个页面视为一个图像而不是将其分解。