text - 使用 GhostScript 将 PostScript 转换为文本

Question

我想从 PostScript 文档中提取文本数据。问题是当我使用 GhostScript 来执行此操作时，一些文本会被正常提取，而另一些会被转换为奇怪的符号字符。

我意识到这些通常被提取的文本采用的是 GhostScript 由于许可限制而不会将它们嵌入 PDF 的字体。而且，具有讽刺意味的是，通常嵌入在 PDF 中的没有许可限制的字体并没有正确转换回来。

我尝试使用 txtwrite 设备将 PostScript 直接转换为文本，并尝试使用 pdfwrite 设备先将 PS 转换为 PDF，然后从 PDF 文档中提取文本，但它们都不起作用。

我想也许我可以用不受支持的字体替换所有字体，以便正确提取文本数据，但是没有简单的方法可以做到这一点。

你觉得我应该怎么做？

score 1 · Accepted Answer

造成这种情况的原因通常是字符以非标准方式编码。恐怕您无能为力，除了可能通过将可读的 PostScript 与提取的文本进行比较来找出“奇怪的符号字符”对应于什么实际字符。然后，您可以通过用预期的字符替换奇怪的字符来重建原始文本。

1 回答 1