1

我想从 PostScript 文档中提取文本数据。问题是当我使用 GhostScript 来执行此操作时,一些文本会被正常提取,而另一些会被转换为奇怪的符号字符。

我意识到这些通常被提取的文本采用的是 GhostScript 由于许可限制而不会将它们嵌入 PDF 的字体。而且,具有讽刺意味的是,通常嵌入在 PDF 中的没有许可限制的字体并没有正确转换回来。

我尝试使用 txtwrite 设备将 PostScript 直接转换为文本,并尝试使用 pdfwrite 设备先将 PS 转换为 PDF,然后从 PDF 文档中提取文本,但它们都不起作用。

我想也许我可以用不受支持的字体替换所有字体,以便正确提取文本数据,但是没有简单的方法可以做到这一点。

你觉得我应该怎么做?

4

1 回答 1

1

造成这种情况的原因通常是字符以非标准方式编码。恐怕您无能为力,除了可能通过将可读的 PostScript 与提取的文本进行比较来找出“奇怪的符号字符”对应于什么实际字符。然后,您可以通过用预期的字符替换奇怪的字符来重建原始文本。

于 2013-11-11T20:50:59.820 回答