我有一个文件夹,多个客户上传多个 PDF 文件。其中一些使用嵌入式字体,有些则没有。
我一直致力于优化(在文件大小方面)此文件夹中的 PDF 文件的服务。
每个用户可能要上传大约 400 个文件,重量在 80K 到 10M 之间,我的任务是将所有文件优化到尽可能小的文件大小,同时将质量损失降到最低。
PDF 库在这方面做得很好。我唯一的问题是我无法从所有文件中删除所有嵌入字体,因为某些文件可能使用这些字体,结果将是一个我无法使用的文件。
所以我的问题是:
- 如何检测哪些文件使用以及哪些文件不使用嵌入字体?
- 优化使用嵌入字体的文件时,如何仅删除未使用的字体?
我想要实现的是从大多数文件中删除所有嵌入字体,但将嵌入字体保留在我实际需要的文件中。我知道这取决于我系统上的字体(这些文件应该保留在一个系统上,所以可移植性对我来说并不那么重要),所以我尝试找到一种方法来识别,在优化之前,哪些文件看起来不错没有嵌入字体,以及我需要哪些文件来保留嵌入字体。