我正在使用 PDFMiner 将一些 pdf 报告转换为纯文本,而我的一堆输入 pdf 只出现了几行已识别的行,然后是 (cid:%d) 的列表,有点像这样......
检查报告
(cid:4)(cid:5)(cid:6)(cid:7)(cid:8)(cid:9) (cid:10)(cid:9)(cid:11)(cid:9) (cid:12)(cid:9)(cid:5)(cid:13)(cid:9) (cid:14)(cid:8)(cid:15)(cid:16)(cid:9) (cid:12) (cid:17)(cid:18)(cid:13)(cid:19)(cid:20) (cid:21)(cid:8)(cid:22)(cid:23) (cid:18)(cid:12)(cid:6)(cid:22)(cid:24) (cid:25)(cid:5)(cid:26)(cid:27)(cid:9) (cid:13)(cid:22)(cid:6)(cid:18)(cid:5) (cid:5)(cid:8)(cid:15)(cid:16)(cid:9) (cid:12)
检查一下,我认为问题在于文档的大部分内容是一种拒绝被提取的字体。调试问题有点奇怪,因为字体似乎在一夜之间发生了变化(不要问如何,它就是这样)。
我不确定什么可能很重要,但今天该字体具有以下属性:
名称 = 'font0000000018f29a3e' - cidcoding = 'Adobe-Identity'- unicode_map = 'UnicodeMap: /Adobe-Identity-UCS' - unicode_map.cid2unichr = {}
我在 Mac 上使用 2.7 并尝试了一些东西
- PyPDF2
- 复制并粘贴到 textedit 中(字符为空白)
- 使用重建的 cmaps 卸载和重新安装
- 关闭机器然后重新打开
作为参考,这些报告都是类似的形式,其中之一可以在这里找到。
http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf
该问题适用于 2010 年 9 月之前发布的所有报告