3

我们在服务器上有数百个 PDF 文件。其中一些包含可搜索的文本,而另一些则不包含。

我被要求找出哪些是可搜索的,哪些是不可搜索的。

是否有人知道读取一堆 PDF 并确定该 PDF 文档是否包含可搜索/可选择的文本,或者 pdf 是否仅包含需要 OCRd 的不可选择/可搜索的文本的方法?

我什至不需要真正阅读文本;我只需要能够通过标签或关键字进行检测,这表明原始数据中有字体或类似的东西。

可搜索的 PDF 中是否有易于检测的标签?

谢谢

4

1 回答 1

1

我相信,您可以修改此代码(pdf2text)以满足您的目的。或者这个答案也可能让你找到正确的位置。

于 2013-05-15T14:55:48.577 回答