java - 寻找解决方法以使用 pdf2dom 成功转换 PDType0Font 和 PDType1Fonts

问问题 2018-12-23T05:28:21.883

329 次

我们正在使用pdf2dom库将大量报纸 pdf 转换为 html。每天有问题的 pdf 数量超过 5k pdf 页。

尽管我们在大多数情况下都成功了，但在大多数情况下我们都无法完全转换 pdf。并得到以下类型的错误 -

字体：Helvetica 已跳过，因为不支持类型“PDType1Font”。

和

找不到字形名称的字符代码。名称：'fraction' GlyphID:'217' 找不到字形名称的字符代码。名称：'fi' GlyphID：'218' 找不到字形名称的字符代码。名称：'fl' GlyphID：'219' 找不到字形名称的字符代码。名称：'breve' GlyphID：'220' 找不到字形名称的字符代码。名称：'dotaccent' GlyphID：'221' 找不到字形名称的字符代码。名称：'ring' GlyphID：'222'

和

问题转换 Bare CFF 字体或 Pdf2Dom 不支持字体类型，字体：UniversLTStd-Bold 异常：索引：0，大小：0 类 java.lang.IndexOutOfBoundsException

和

字体：RXKFZF+*Calibri-Bold 已跳过，因为不支持“PDType0Font”类型。

由于我们的目标是将 pdf 转换为具有完整文本和适当格式信息（即大小/粗体/斜体等）的 html，并且我们可以忽略字体，因此我们正在寻找一种有效的方法来转换/替换不支持的 Type 1 和 Type 0具有等效字体的字体。

任何解决方法和指针都会非常有帮助。

java - 寻找解决方法以使用 pdf2dom 成功转换 PDType0Font 和 PDType1Fonts

0 回答 0

Related

Reference