pdf - 从编写不当的 LaTeX 源中索引 PDF

翻译自：https://stackoverflow.com/questions/14474405 2013-01-23T07:22:23.010

816 次

1

我注意到一些 PDF 文件存在这个问题，这些文件源自 LaTeX 源（我假设，来自所使用的页面布局/设计和字体）。

所以今天我在看这样的文章，无法复制有意义的文本，也无法进行文本搜索，当然也无法对文档进行索引。这是一个随机示例： http: //www.vincent-net.com/luc/papers/00informatica_particle.pdf

是否有一些程序，我可以使这种文件可以访问。我想到的唯一一件事就是光栅化文档，然后进行 OCR 保存，但这感觉很愚蠢。

0 回答 0