python - PDFMiner 无法提取字体

翻译自：https://stackoverflow.com/questions/22908556 2014-04-07T09:32:01.697

2302 次

我正在使用 PDFMiner 将一些 pdf 报告转换为纯文本，而我的一堆输入 pdf 只出现了几行已识别的行，然后是 (cid:%d) 的列表，有点像这样......

检查报告

(cid:4)(cid:5)(cid:6)(cid:7)(cid:8)(cid:9) (cid:10)(cid:9)(cid:11)(cid:9) (cid:12)(cid:9)(cid:5)(cid:13)(cid:9) (cid:14)(cid:8)(cid:15)(cid:16)(cid:9) (cid:12) (cid:17)(cid:18)(cid:13)(cid:19)(cid:20) (cid:21)(cid:8)(cid:22)(cid:23) (cid:18)(cid:12)(cid:6)(cid:22)(cid:24) (cid:25)(cid:5)(cid:26)(cid:27)(cid:9) (cid:13)(cid:22)(cid:6)(cid:18)(cid:5) (cid:5)(cid:8)(cid:15)(cid:16)(cid:9) (cid:12)

检查一下，我认为问题在于文档的大部分内容是一种拒绝被提取的字体。调试问题有点奇怪，因为字体似乎在一夜之间发生了变化（不要问如何，它就是这样）。

我不确定什么可能很重要，但今天该字体具有以下属性：

名称 = 'font0000000018f29a3e' - cidcoding = 'Adobe-Identity'- unicode_map = 'UnicodeMap: /Adobe-Identity-UCS' - unicode_map.cid2unichr = {}

我在 Mac 上使用 2.7 并尝试了一些东西

PyPDF2
复制并粘贴到 textedit 中（字符为空白）
使用重建的 cmaps 卸载和重新安装
关闭机器然后重新打开

作为参考，这些报告都是类似的形式，其中之一可以在这里找到。

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

该问题适用于 2010 年 9 月之前发布的所有报告

python - PDFMiner 无法提取字体

0 回答 0

Related

Reference