我想从 PostScript 文档中提取文本数据。问题是当我使用 GhostScript 来执行此操作时,一些文本会被正常提取,而另一些会被转换为奇怪的符号字符。
我意识到这些通常被提取的文本采用的是 GhostScript 由于许可限制而不会将它们嵌入 PDF 的字体。而且,具有讽刺意味的是,通常嵌入在 PDF 中的没有许可限制的字体并没有正确转换回来。
我尝试使用 txtwrite 设备将 PostScript 直接转换为文本,并尝试使用 pdfwrite 设备先将 PS 转换为 PDF,然后从 PDF 文档中提取文本,但它们都不起作用。
我想也许我可以用不受支持的字体替换所有字体,以便正确提取文本数据,但是没有简单的方法可以做到这一点。
你觉得我应该怎么做?