我有一个带有 PDF 的 URL 列表的 CSV:
- 其中一些 PDF 是可搜索的。
- 其中一些 PDF 文件不可搜索。
我想确定可以从我的 PDF 列表中搜索哪些 PDF。是否有捷径可寻?
在命令行上,我会pdffonts
用来确定文件使用的字体。这也运行得相当快......
pdffonts bash-manpage.pdf 名称 类型 编码 emb sub uni 对象 ID ------------------------------- ------------- ------ --------- --- --- --- --------- Times-Roman Type 1 Custom no no no 8 0 Times-Bold Type 1 标准 no no no 9 0 Helvetica Type 1 自定义 no no no 11 0 Helvetica-Bold Type 1 标准 no no no 30 0
pdffonts 扫描书.pdf pdf字体手工制作.pdf 名称 类型 编码 emb sub uni 对象 ID ------------------------------- -------------- ----- --------- --- --- --- ---------
示例 1 显示了一个带有字体名称的表格。这意味着有要搜索的文本。
示例 2 显示了一个空表。没有字体,没有要搜索的文本(除非您在文件上运行 OCR 以首先嵌入任何找到的文本……但随后您创建了一个不同的文件!),不要回头看这些……
注意:要成功地实际提取嵌入的文本并因此能够搜索它是一个完全不同的问题。在许多情况下,您会发现它非常困难——尤其是当您在字体表中看到字体类型时,例如CID Type
使用“自定义”编码。您可能首先想在 stackoverflow 中搜索有关从 PDF 中提取文本的其他问题...