Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我们在服务器上有数百个 PDF 文件。其中一些包含可搜索的文本,而另一些则不包含。
我被要求找出哪些是可搜索的,哪些是不可搜索的。
是否有人知道读取一堆 PDF 并确定该 PDF 文档是否包含可搜索/可选择的文本,或者 pdf 是否仅包含需要 OCRd 的不可选择/可搜索的文本的方法?
我什至不需要真正阅读文本;我只需要能够通过标签或关键字进行检测,这表明原始数据中有字体或类似的东西。
可搜索的 PDF 中是否有易于检测的标签?
谢谢
我相信,您可以修改此代码(pdf2text)以满足您的目的。或者这个答案也可能让你找到正确的位置。