python - 如何以编程方式确定 PDF 是否可搜索？

翻译自：https://stackoverflow.com/questions/11820241 2012-08-05T21:32:08.680

5908 次

6

我有一个带有 PDF 的 URL 列表的 CSV：

其中一些 PDF 是可搜索的。
其中一些 PDF 文件不可搜索。

我想确定可以从我的 PDF 列表中搜索哪些 PDF。是否有捷径可寻？

1 回答 1

9

在命令行上，我会pdffonts用来确定文件使用的字体。这也运行得相当快......

示例 1：包含文本的 PDF

pdffonts bash-manpage.pdf
  
  名称 类型 编码 emb sub uni 对象 ID
  ------------------------------- ------------- ------ --------- --- --- --- ---------
  Times-Roman Type 1 Custom no no no 8 0
  Times-Bold Type 1 标准 no no no 9 0
  Helvetica Type 1 自定义 no no no 11 0
  Helvetica-Bold Type 1 标准 no no no 30 0

示例 2：仅包含图像的 PDF

pdffonts 扫描书.pdf
  
  pdf字体手工制作.pdf
  名称 类型 编码 emb sub uni 对象 ID
  ------------------------------- -------------- ----- --------- --- --- --- ---------

示例 1 显示了一个带有字体名称的表格。这意味着有要搜索的文本。
示例 2 显示了一个空表。没有字体，没有要搜索的文本（除非您在文件上运行 OCR 以首先嵌入任何找到的文本……但随后您创建了一个不同的文件！），不要回头看这些……

注意：要成功地实际提取嵌入的文本并因此能够搜索它是一个完全不同的问题。在许多情况下，您会发现它非常困难——尤其是当您在字体表中看到字体类型时，例如CID Type使用“自定义”编码。您可能首先想在 stackoverflow 中搜索有关从 PDF 中提取文本的其他问题...

于 2012-08-05T22:14:48.600 回答