1

我们正在使用pdf2dom库将大量报纸 pdf 转换为 html。每天有问题的 pdf 数量超过 5k pdf 页。

尽管我们在大多数情况下都成功了,但在大多数情况下我们都无法完全转换 pdf。并得到以下类型的错误 -

字体:Helvetica 已跳过,因为不支持类型“PDType1Font”。

找不到字形名称的字符代码。名称:'fraction' GlyphID:'217' 找不到字形名称的字符代码。名称:'fi' GlyphID:'218' 找不到字形名称的字符代码。名称:'fl' GlyphID:'219' 找不到字形名称的字符代码。名称:'breve' GlyphID:'220' 找不到字形名称的字符代码。名称:'dotaccent' GlyphID:'221' 找不到字形名称的字符代码。名称:'ring' GlyphID:'222'

问题转换 Bare CFF 字体或 Pdf2Dom 不支持字体类型,字体:UniversLTStd-Bold 异常:索引:0,大小:0 类 java.lang.IndexOutOfBoundsException

字体:RXKFZF+*Calibri-Bold 已跳过,因为不支持“PDType0Font”类型。

由于我们的目标是将 pdf 转换为具有完整文本和适当格式信息(即大小/粗体/斜体等)的 html,并且我们可以忽略字体,因此我们正在寻找一种有效的方法来转换/替换不支持的 Type 1 和 Type 0具有等效字体的字体。

任何解决方法和指针都会非常有帮助。

4

0 回答 0