在这个问题上,mkl 为 pnj 的困境提供了一个绝妙的答案。不幸的是,我们面临着一个非常相似的问题(使用名为Lohit - Devanagari的不同字体,但仍然是 Devanagari 字体)第二条评论很好地概述了非 OCR 解决方案的步骤,但我在理解 PDF 及其结构体。因此,如果可以在以下方面给出一些方向,那就太好了:
- 使用具有低级对象访问 API 的通用 PDF 库覆盖此 PDF 中的 ToUnicode 映射,用于您选择的编程语言:我可以使用 Python 中的哪个库来执行此操作?
- 遍历 PDF 对象结构,找到 ToUnicode 映射流,替换其内容,并保存结果。:有没有一些例子,我可以看到这对于任何字体是如何完成的?
我希望这不是太宽泛。谢谢!